Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике , на коэффициент вариации ( CV ), также известный как относительное стандартное отклонение ( RSD ), является стандартизированная мера дисперсии в виде распределения вероятностей или распределения частот . Это часто выражается в процентах и определяется как отношение стандартного отклонения к среднему (или его абсолютному значению , ). CV или RSD широко используются в аналитической химии для выражения точности и повторяемости проба . Он также обычно используется в таких областях, как инженерия или физика, при проведении исследований по обеспечению качества и анализа и анализа ANOVA . [ необходима цитата ] Кроме того, резюме используется экономистами и инвесторами в экономических моделях .

Определение [ править ]

Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению , [1] Это показывает степень изменчивости по отношению к средней части населения. Коэффициент вариации следует вычислять только для данных, измеренных по шкале отношений , то есть шкалам, которые имеют значимый ноль и, следовательно, позволяют относительное сравнение двух измерений (т. Е. Деление одного измерения на другое). Коэффициент вариации может не иметь никакого значения для данных на интервальной шкале . [2]Например, большинство температурных шкал (например, Цельсия, Фаренгейта и т. Д.) Представляют собой интервальные шкалы с произвольными нулями, поэтому вычисленный коэффициент вариации будет различным в зависимости от того, какую шкалу вы использовали. С другой стороны, температура Кельвина имеет значимый ноль, полное отсутствие тепловой энергии и, таким образом, является шкалой отношений. Проще говоря, имеет смысл сказать, что 20 Кельвинов вдвое горячее, чем 10 Кельвинов, но только в этой шкале с истинным абсолютным нулем. Хотя стандартное отклонение (SD) может быть измерено в Кельвинах, Цельсиях или Фаренгейтах, вычисленное значение применимо только к этой шкале. Только шкала Кельвина может использоваться для вычисления действительного коэффициента изменчивости.

Измерения с нормальным логарифмическим распределением демонстрируют стационарную CV; напротив, SD варьируется в зависимости от ожидаемого значения измерений.

Более надежная возможность заключается в квартиль коэффициент дисперсии , половину межквартильного диапазона , деленное на среднее значение квартили (The midhinge ), .

В большинстве случаев CV вычисляется для одной независимой переменной (например, для одного продукта завода) с многочисленными повторяющимися измерениями зависимой переменной (например, ошибка в производственном процессе). Однако данные, которые являются линейными или даже логарифмически нелинейными и включают непрерывный диапазон для независимой переменной с разреженными измерениями по каждому значению (например, диаграмма разброса), могут поддаваться вычислению одиночного CV с использованием подхода оценки максимального правдоподобия . [3]

Примеры [ править ]

Набор данных [100, 100, 100] имеет постоянные значения. Его стандартное отклонение равно 0, а среднее значение равно 100, что дает коэффициент вариации как

0/100 = 0

Набор данных [90, 100, 110] более изменчив. Стандартное отклонение его выборки составляет 10, а среднее значение - 100, что дает коэффициент вариации как

10/100 = 0,1

Набор данных [1, 5, 6, 8, 10, 40, 65, 88] еще более изменчив. Его стандартное отклонение составляет 32,9, а среднее значение - 27,9, что дает коэффициент вариации

32,9 / 27,9 = 1,18

Примеры неправильного использования [ править ]

Сравнение коэффициентов вариации между параметрами с использованием относительных единиц может привести к различиям, которые могут быть нереальными. Если мы сравним один и тот же набор температур в градусах Цельсия и Фаренгейта (обе относительные единицы, где кельвин и шкала Ренкина - их связанные абсолютные значения):

Цельсия: [0, 10, 20, 30, 40]

Фаренгейт: [32, 50, 68, 86, 104]

В выборочных стандартных отклонениях являются 15,81 и 28,46 соответственно. CV первого набора составляет 15,81 / 20 = 79%. Для второго набора (с теми же температурами) это 28,46 / 68 = 42%.

Если, например, наборы данных представляют собой показания температуры от двух разных датчиков (датчик Цельсия и датчик Фаренгейта), и вы хотите узнать, какой датчик лучше, выбрав тот, который имеет наименьшее отклонение, то вы будете введены в заблуждение, если будете использовать РЕЗЮМЕ. Проблема здесь в том, что вы разделили на относительное значение, а не на абсолютное.

Сравнивая тот же набор данных, теперь в абсолютных единицах:

Кельвин: [273,15, 283,15, 293,15, 303,15, 313,15]

Ренкин: [491,67, 509,67, 527,67, 545,67, 563,67]

В выборочных стандартных отклонениях по - прежнему 15,81 и 28,46, соответственно, поскольку стандартное отклонение не зависят от константы смещения. Однако теперь оба коэффициента вариации равны 5,39%.

С математической точки зрения коэффициент вариации не является полностью линейным. То есть для случайной величины коэффициент вариации равен коэффициенту вариации только тогда, когда . В приведенном выше примере градусы Цельсия можно преобразовать в градусы Фаренгейта только с помощью линейного преобразования формы с , тогда как градусы Цельсия можно преобразовать в градусы Ранкина с помощью преобразования формы .

Оценка [ править ]

Когда доступна только выборка данных из совокупности, CV совокупности можно оценить с помощью отношения стандартного отклонения выборки к среднему выборке :

Но эта оценка, применяемая к выборке небольшого или среднего размера, имеет тенденцию быть слишком заниженной: это смещенная оценка . Для нормально распределенных данных несмещенная оценка [4] для выборки размера n:

Нормальные данные журнала [ править ]

Во многих приложениях можно предположить, что данные распределены нормально логарифмически (о чем свидетельствует наличие асимметрии в выборочных данных). [5] В таких случаях более точная оценка, полученная из свойств логнормального распределения , [6] [7] [8] определяется как:

где - выборочное стандартное отклонение данных после преобразования в натуральный логарифм . (В случае, если измерения записываются с использованием любого другого логарифмического основания, b, их стандартное отклонение преобразуется в основание e с использованием , а формула для остается той же. [9] ) Эту оценку иногда называют «геометрической CV». (GCV) [10] [11] , чтобы отличить его от простой оценки, приведенной выше. Однако Кирквуд [12] также определил «геометрический коэффициент вариации» как:

Этот термин был задуман как аналог коэффициента вариации для описания мультипликативной вариации логнормальных данных, но это определение GCV не имеет теоретической основы как самооценки .

Для многих практических целей (таких как определение размера выборки и расчет доверительных интервалов ) именно он является наиболее полезным в контексте данных с нормальным логарифмическим распределением. При необходимости, это можно получить из оценки или GCV, инвертировав соответствующую формулу.

Сравнение со стандартным отклонением [ править ]

Преимущества [ править ]

Коэффициент вариации полезен, потому что стандартное отклонение данных всегда следует понимать в контексте среднего значения данных. Напротив, фактическое значение CV не зависит от единицы измерения, поэтому это безразмерное число . Для сравнения наборов данных с разными единицами измерения или сильно различающимися средними значениями следует использовать коэффициент вариации вместо стандартного отклонения.

Недостатки [ править ]

  • Когда среднее значение близко к нулю, коэффициент вариации приближается к бесконечности и, следовательно, чувствителен к небольшим изменениям среднего. Это часто имеет место, если значения не основаны на шкале соотношений.
  • В отличие от стандартного отклонения, его нельзя использовать напрямую для построения доверительных интервалов для среднего.
  • CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в разных выборках, потому что CV инвариантно к количеству повторов, в то время как достоверность среднего увеличивается с увеличением количества повторов. В этом случае рекомендуется использовать стандартную ошибку в процентах. [13]

Приложения [ править ]

Коэффициент вариации является обычным явлением в прикладных вероятностных таких областях, как теории восстановления , теории массового обслуживания и теории надежности . В этих полях экспоненциальное распределение часто более важно, чем нормальное распределение . Стандартное отклонение экспоненциального распределения равно его среднему значению, поэтому его коэффициент вариации равен 1. Распределения с CV <1 (например, распределение Эрланга ) считаются низко-дисперсионными, а с CV> 1 (например, распределение гипер-экспоненциальной ) считаются высокой дисперсией [ править ]. Некоторые формулы в этих полях выражаются с использованием квадрата коэффициента вариации , часто обозначаемого сокращенно SCV. При моделировании вариацией CV является CV (RMSD). По сути, CV (RMSD) заменяет термин стандартного отклонения среднеквадратическим отклонением (RMSD) . В то время как многие природные процессы действительно показывают корреляцию между средним значением и величинами изменения вокруг него, точные сенсорные устройства должны быть сконструированы таким образом , что коэффициент вариации близок к нулю, то есть, получая постоянную абсолютную ошибку над своим рабочий диапазон.

В актуарной науке CV известен как единичный риск . [14]

В промышленной переработке твердых тел CV особенно важен для измерения степени однородности порошковой смеси. Сравнение рассчитанного CV со спецификацией позволит определить, была ли достигнута достаточная степень перемешивания. [15]

Лабораторные измерения CV внутри анализов и между анализами [ править ]

Измерения CV часто используются в качестве контроля качества для количественных лабораторных анализов . Хотя можно предположить, что CV внутри анализа и между анализами можно рассчитать путем простого усреднения значений CV по значениям CV для нескольких образцов в рамках одного анализа или путем усреднения нескольких оценок CV между анализами, было высказано предположение, что эти методы неверны и что требуется более сложный вычислительный процесс. [16] Также было отмечено, что значения CV не являются идеальным показателем достоверности измерения, когда количество повторов варьируется в разных образцах - в этом случае стандартная ошибка в процентах считается более высокой. [13] Если измерения не имеют естественной нулевой точки, тогда CV не является действительным измерением, и альтернативные меры, такие какрекомендуются коэффициенты внутриклассовой корреляции . [17]

Как показатель экономического неравенства [ править ]

Коэффициент вариации отвечает требованиям для измерения экономического неравенства . [18] [19] [20] Если x (с записями x i ) является списком значений экономического показателя (например, богатства), где x i - богатство агента i , то выполняются следующие требования:

  • Анонимность - c v не зависит от порядка в списке x . Это следует из того факта, что дисперсия и среднее не зависят от порядка x .
  • Масштабная инвариантность: c v ( x ) = c vx ), где α - действительное число. [20]
  • Независимость от популяции - если { x , x } - это список x, добавленный к самому себе, то c v ({ x , x }) = c v ( x ). Это следует из того факта, что и дисперсия, и среднее подчиняются этому принципу.
  • Принцип передачи Пигу – Дальтона: когда богатство передается от более богатого агента i к более бедному агенту j (т. Е. X i  >  x j ) без изменения их ранга, тогда c v уменьшается, и наоборот. [20]

c v принимает минимальное значение нуля для полного равенства (все x i равны). [20] Его наиболее заметным недостатком является то, что он не ограничен сверху, поэтому его нельзя нормализовать, чтобы он находился в фиксированном диапазоне (например, как коэффициент Джини, который ограничен между 0 и 1). [20] Однако он более податлив с математической точки зрения, чем коэффициент Джини.

Как мера стандартизации археологических артефактов [ править ]

Археологи часто используют значения CV для сравнения степени стандартизации древних артефактов. [21] [22] Вариация резюме была интерпретирована как указание на различные культурные контексты передачи для принятия новых технологий. [23] Коэффициенты вариации также использовались для исследования стандартизации керамики, связанной с изменениями в социальной организации. [24] Археологи также используют несколько методов для сравнения значений CV, например, тест модифицированного отношения правдоподобия со знаком (MSLR) на равенство CV. [25] [26]

Распространение [ править ]

При условии, что отрицательные и небольшие положительные значения выборочного среднего встречаются с незначительной частотой, распределение вероятностей коэффициента вариации для выборки размера iid нормальных случайных величин, как показали Хендрикс и Роби, равно [27]

где символ указывает, что суммирование проводится только по четным значениям , т. е. если нечетное, суммируется по четным значениям, а если четное, суммируется только по нечетным значениям .

Это полезно, например, при построении тестов гипотез или доверительных интервалов . Статистический вывод для коэффициента вариации в нормально распределенных данных часто основан на приближении хи-квадрат Маккея для коэффициента вариации [28] [29] [30] [31] [32] [33]]

Альтернатива [ править ]

Согласно Лю (2012), [34] Леманн (1986). [35] «также получил выборочное распределение CV, чтобы дать точный метод построения доверительного интервала для CV»; он основан на нецентральном t-распределении .

Подобные соотношения [ править ]

Стандартизированные моменты подобные отношения, где именно та K - й момента относительно среднего значения, которые также безразмерные и масштабна инвариантные. Отношение дисперсии к среднему , является другим подобным отношением, но не является безразмерным, и , следовательно , не масштабен инвариантным. См. Нормализация (статистика) для дальнейших соотношений.

При обработке сигналов , в частности обработки изображений , обратное отношение (или его квадрат) называется отношением сигнал / шум в целом и отношением сигнал / шум (визуализация) в частности.

Другие связанные соотношения включают:

  • Эффективность ,
  • Стандартизированный момент ,
  • Отношение дисперсии к среднему (или относительная дисперсия),
  • Фано фактор , (оконный VMR)
  • Относительная стандартная ошибка

См. Также [ править ]

  • Соотношение Омега
  • Выборка (статистика)
  • Коэффициент Шарпа
  • Функция дисперсии

Ссылки [ править ]

  1. ^ Everitt, Brian (1998). Кембриджский статистический словарь . Кембридж, Великобритания Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0521593465.
  2. ^ "В чем разница между порядковыми, интервальными и относительными переменными? Почему меня это должно волновать?" . GraphPad Software Inc. Архивировано 15 декабря 2008 года . Проверено 22 февраля 2008 года .
  3. ^ Одическая Дарко; Им, Хи Ён; Эйзингер, Роберт; Ли, Райан; Халберда, Джастин (июнь 2016 г.). «PsiMLE: подход к оценке максимального правдоподобия для более надежной, эффективной и гибкой оценки психофизического масштабирования и вариабельности» . Методы исследования поведения . 48 (2): 445–462. DOI : 10,3758 / s13428-015-0600-5 . ISSN 1554-3528 . PMID 25987306 .  
  4. ^ Sokal RR & Rohlf FJ. Биометрия (3-е изд.). Нью-Йорк: Фриман, 1995. стр. 58. ISBN 0-7167-2411-1 
  5. ^ Лимперт, Экхард; Stahel, Werner A .; Эббт, Маркус (2001). «Логнормальные распределения по наукам: ключи и подсказки» . Биология . 51 (5): 341–352. DOI : 10,1641 / 0006-3568 (2001) 051 [0341: LNDATS] 2.0.CO; 2 .
  6. ^ Купманс, LH; Оуэн, ДБ; Розенблатт, JI (1964). «Доверительные интервалы для коэффициента вариации для нормального и логнормального распределений». Биометрика . 51 (1–2): 25–32. DOI : 10.1093 / Biomet / 51.1-2.25 .
  7. ^ Дилетти, E; Hauschke, D; Стейнийанс, VW (1992). «Определение объема выборки для оценки биоэквивалентности с помощью доверительных интервалов». Международный журнал клинической фармакологии, терапии и токсикологии . 30 Дополнение 1: S51–8. PMID 1601532 . 
  8. ^ Джулиус, Стивен А .; Дебарно, Камилла AM (2000). «Почему фармакокинетические данные суммируются с помощью арифметических средств?». Журнал биофармацевтической статистики . 10 (1): 55–71. DOI : 10.1081 / BIP-100101013 . PMID 10709801 . 
  9. ^ Рид, JF; Линн, Ф; Мид, Б.Д. (2002). «Использование коэффициента вариации в оценке изменчивости количественных анализов» . Clin Diagn Lab Immunol . 9 (6): 1235–1239. DOI : 10,1128 / CDLI.9.6.1235-1239.2002 . PMC 130103 . PMID 12414755 .  
  10. ^ Sawant, S .; Мохан, Н. (2011) «Вопросы и ответы: вопросы анализа эффективности данных клинических испытаний с использованием SAS». Архивировано 24 августа 2011 г. в Wayback Machine , PharmaSUG2011 , Paper PO08.
  11. ^ Шифф, MH; и другие. (2014). «Прямое рандомизированное перекрестное исследование перорального и подкожного метотрексата у пациентов с ревматоидным артритом: ограничения воздействия перорального метотрексата в дозах> = 15 мг могут быть преодолены с помощью подкожного введения» . Ann Rheum Dis . 73 (8): 1–3. DOI : 10.1136 / annrheumdis-2014-205228 . PMC 4112421 . PMID 24728329 .  
  12. ^ Кирквуд, TBL (1979). «Геометрические средства и меры рассеяния». Биометрия . 35 (4): 908–9. JSTOR 2530139 . 
  13. ^ а б Айзенберг, Дэн (2015). «Улучшение анализов длины теломер с помощью КПЦР: контроль влияния положения лунки увеличивает статистическую мощность» . Американский журнал биологии человека . 27 (4): 570–5. DOI : 10.1002 / ajhb.22690 . PMC 4478151 . PMID 25757675 .  
  14. ^ Броверман, Сэмюэл А. (2001). Учебное пособие Actex, Курс 1, Экспертиза Общества актуариев, Экзамен 1 Общества актуариев по несчастным случаям (изд. 2001 г.). Винстед, Коннектикут: Публикации Actex. п. 104. ISBN 9781566983969. Проверено 7 июня 2014 .
  15. ^ «Измерение степени смешивания - Однородность порошковой смеси - Качество смеси - PowderProcess.net» . www.powderprocess.net . Архивировано 14 ноября 2017 года . Проверено 2 мая 2018 .
  16. ^ Rodbard, D (октябрь 1974 г.). «Статистический контроль качества и рутинная обработка данных для радиоиммуноанализов и иммунорадиометрических анализов». Клиническая химия . 20 (10): 1255–70. PMID 4370388 . 
  17. Перейти ↑ Eisenberg, Dan TA (30 августа 2016 г.). «Достоверность измерения длины теломер: коэффициент вариации недействителен и не может использоваться для сравнения количественной полимеразной цепной реакции и метода измерения длины теломер по Саузерну» . Международный журнал эпидемиологии . 45 (4): 1295–1298. DOI : 10.1093 / ije / dyw191 . ISSN 0300-5771 . PMID 27581804 .  
  18. ^ Champernowne, DG; Коуэлл, Ф.А. (1999). Экономическое неравенство и распределение доходов . Издательство Кембриджского университета.
  19. ^ Кампано, Ф .; Сальваторе, Д. (2006). Распределение доходов . Издательство Оксфордского университета.
  20. ^ a b c d e Беллу, Лоренцо Джованни; Либерати, Паоло (2006). «Влияние политики на неравенство - простые меры неравенства» (PDF) . EASYPol, Аналитические инструменты . Служба поддержки политики, Отдел поддержки политики, ФАО. Архивировано 5 августа 2016 года (PDF) . Проверено 13 июня +2016 .
  21. ^ Eerkens, Jelmer W .; Беттингер, Роберт Л. (июль 2001 г.). «Методы оценки стандартизации сборок артефактов: можем ли мы масштабировать изменчивость материалов?». Американская древность . 66 (3): 493–504. DOI : 10.2307 / 2694247 .
  22. ^ Ру, Валентин (2003). «Стандартизация керамики и интенсивность производства: количественная оценка степени специализации» . Американская древность . 68 (4): 768–782. DOI : 10.2307 / 3557072 . ISSN 0002-7316 . 
  23. ^ Беттингер, Роберт Л .; Eerkens, Jelmer (апрель 1999 г.). «Точечные типологии, культурная передача и распространение технологий лука и стрел в доисторическом Большом бассейне». Американская древность . 64 (2): 231–242. DOI : 10.2307 / 2694276 .
  24. ^ Ван, Ли-Инь; Марвик, Бен (октябрь 2020 г.). «Стандартизация керамической формы: тематическое исследование керамики железного века из северо-восточного Тайваня». Журнал археологической науки: отчеты . 33 : 102554. DOI : 10.1016 / j.jasrep.2020.102554 .
  25. ^ Кришнамурти, К .; Ли, Мисук (февраль 2014 г.). «Усовершенствованные тесты на равенство нормальных коэффициентов вариации». Вычислительная статистика . 29 (1-2): 215-232. DOI : 10.1007 / s00180-013-0445-2 .
  26. ^ Марвик, Бен; Кришнамурти, К. (2019). cvequality: тесты на равенство коэффициентов вариации из нескольких групп . Пакет R версии 0.2.0.
  27. ^ Хендрикс, Уолтер А .; Роби, Кейт В. (1936). «Выборочное распределение коэффициента вариации» . Летопись математической статистики . 7 (3): 129–32. DOI : 10.1214 / АОМ / 1177732503 . JSTOR 2957564 . 
  28. ^ Иглевич, Борис; Майерс, Раймонд (1970). «Сравнение приближений к процентным пунктам выборочного коэффициента вариации». Технометрика . 12 (1): 166–169. DOI : 10.2307 / 1267363 . JSTOR 1267363 . 
  29. Перейти ↑ Bennett, BM (1976). «О приблизительном тесте на однородность коэффициентов вариации». Вклады в прикладную статистику, посвященные А. Линдеру . Experientia Supplementum. 22 : 169–171. DOI : 10.1007 / 978-3-0348-5513-6_16 . ISBN 978-3-0348-5515-0.
  30. ^ Vangel, Марк Г. (1996). «Доверительные интервалы для нормального коэффициента вариации». Американский статистик . 50 (1): 21–26. DOI : 10.1080 / 00031305.1996.10473537 . JSTOR 2685039 . .
  31. ^ Feltz, Кэрол Дж; Миллер, Дж. Эдвард (1996). «Асимптотический тест на равенство коэффициентов вариации от k популяций». Статистика в медицине . 15 (6): 647. doi : 10.1002 / (SICI) 1097-0258 (19960330) 15: 6 <647 :: AID-SIM184> 3.0.CO; 2-P .
  32. ^ Forkman, Johannes (2009). «Оценщик и тесты для общих коэффициентов вариации нормальных распределений» (PDF) . Коммуникации в статистике - теория и методы . 38 (2): 21–26. DOI : 10.1080 / 03610920802187448 . Архивировано 6 декабря 2013 года (PDF) из оригинала . Проверено 23 сентября 2013 года .
  33. ^ Кришнамурти, K; Ли, Мисук (2013). «Усовершенствованные тесты на равенство нормальных коэффициентов вариации». Вычислительная статистика . 29 (1-2): 215-232. DOI : 10.1007 / s00180-013-0445-2 .
  34. ^ Лю, Шуанг (2012). Доверительный интервал оценки коэффициента вариации (Диссертация). Государственный университет Джорджии. стр.3. Архивировано 1 марта 2014 года . Проверено 25 февраля 2014 года .
  35. Перейти ↑ Lehmann, EL (1986). Проверка статистической гипотезы. 2-е изд. Нью-Йорк: Вили.

Внешние ссылки [ править ]

  • cvequality : пакет R для проверки значительных различий между несколькими коэффициентами вариации