Как интерпретировать коэффициент вариации?


33

Я пытаюсь понять Коэффициент Вариации . Когда я пытаюсь применить его к следующим двум образцам данных, я не могу понять, как интерпретировать результаты.

Допустим, образец 1 равен а образец 2 - . Здесь образец 2 образец 1 как вы можете видеть.10 , 15 , 17 , 22 , 21 , 27 = + 100,5,7,12,11,1710,15,17,22,21,27=+ 10

Оба имеют одинаковое стандартное отклонение но и .μ 2 = 18,67 μ 1 = 8,66667σ2=σ1=5.95539μ2=18,67μ1=8,66667

Теперь коэффициент вариации будет другим. Для образца 2 это будет меньше, чем для образца 1. Но как мне интерпретировать этот результат? С точки зрения дисперсии оба одинаковы; только их средства различны. Так какой тут коэффициент вариации? Это просто вводит меня в заблуждение, или, может быть, я не могу интерпретировать результаты.σ/μ


Если вместо добавления 10 вы добавите 1000, второй набор чисел будет отличаться гораздо меньше относительно среднего, чем первый набор. Коэффициент вариации является выражением этого.

Очень тесно связаны: stats.stackexchange.com/questions/113437/… .
whuber

Ответы:


42

В таких примерах, как ваш, когда данные отличаются лишь аддитивно, то есть мы добавляем ко всему некоторую постоянную , тогда, как вы указываете, стандартное отклонение не изменяется, среднее значение изменяется именно на эту константу, и поэтому коэффициент вариации изменяется от σ / μ чтобы сг / ( μ + K ) , которая не является ни интересным , ни полезным.Кσ/μσ/(μ+К)

Это мультипликативное изменение, которое интересно и где коэффициент вариации имеет некоторое применение. Для умножения всего на некоторую константу следует, что коэффициент вариации становится k σ / k µ , то есть остается таким же, как и раньше. Изменение единиц измерения является показательным примером, как в ответах @Aksalal и @Macond.ККσ/Кμ

Поскольку коэффициент вариации не содержит единиц измерения, он также не имеет размеров, поскольку любые единицы или измерения, которыми обладает базовая переменная, вымываются делением. Это делает коэффициент вариации мерой относительной изменчивости , поэтому относительная изменчивость длин может сравниваться с весовой и так далее. Одна область, где коэффициент вариации нашел некоторое описательное использование, является морфометрией размера организма в биологии.

В принципе и на практике коэффициент вариации определяется только полностью и вообще полезен для переменных, которые являются полностью положительными. Поэтому подробно ваш первый пример со значением не является подходящим примером. Другой способ увидеть это состоит в том, чтобы отметить, что если бы среднее значение всегда было равно нулю, коэффициент был бы неопределенным, а если бы среднее значение всегда было отрицательным, коэффициент был бы отрицательным, предполагая в последнем случае, что стандартное отклонение положительно. В любом случае мера станет бесполезной как мера относительной изменчивости или даже для какой-либо другой цели. 0

Эквивалентное утверждение состоит в том, что коэффициент вариации интересен и полезен только в том случае, если логарифмы определены обычным образом для всех значений, и, действительно, использование коэффициентов вариации эквивалентно рассмотрению изменчивости логарифмов.

Хотя это должно показаться невероятным для читателей здесь, я видел климатологических и географические публикации , в которых коэффициенты вариации температур по Цельсию озадачили наивные ученые, заметим , что коэффициенты могут взорваться , как средние температуры подобраться к C и стать отрицательным для средних температур ниже нуля Еще более странно, я видел предположения, что проблема решается с помощью Фаренгейта вместо этого. И наоборот, коэффициент вариации часто упоминается правильно как сводная мера, определяемая тогда и только тогда, когда шкалы измерения квалифицируются как шкала коэффициентов. Как это бывает, коэффициент вариации не особенно полезен даже для температур, измеряемых в Кельвинах, но по физическим причинам, а не по математическим или статистическим показателям.0

Как и в случае со странными примерами из климатологии, которые я оставляю без ссылок, поскольку авторы не заслуживают ни уважения, ни позора, коэффициент вариации был чрезмерно использован в некоторых областях. Иногда наблюдается тенденция рассматривать его как своего рода магическую сводную меру, которая включает в себя как среднее, так и стандартное отклонение. Это естественно примитивное мышление, так как даже когда соотношение имеет смысл, из него невозможно восстановить среднее значение и стандартное отклонение.

В статистике коэффициент вариации является довольно естественным параметром, если вариация следует либо за гаммой, либо за логнормальным значением, что можно увидеть, посмотрев на форму коэффициента вариации для этих распределений.

Хотя коэффициент вариации может быть полезен, в тех случаях, когда он применяется, более полезным шагом является работа в логарифмическом масштабе, либо путем логарифмического преобразования, либо с использованием функции логарифмической связи в обобщенной линейной модели.

σ/|μ|


3
+1 Этот пост включает в себя ключевые моменты о логарифмах и положительности, которые должны быть частью любого обсуждения вопроса. «Военные истории» также делают это хорошим чтением.
whuber

Я думал, что вы не можете рассчитать CV, если переменная = 0?

1
@Jerf: продумайте это до конца. Если все значения равны 0, то вариации нет и рассчитывать нечего. Нет проблем только потому, что некоторые отдельные значения равны 0, поскольку само по себе это не исключает того, что среднее значение равно 0. Тем не менее, вы всегда можете найти примеры, где некоторые значения не равны нулю, а среднее значение равно 0, например, -1, 0, 1 в в этом случае резюме является неопределенным. Но на практике резюме наиболее полезно, когда все значения положительные.
Ник Кокс

13

Представьте, что я сказал: «В этом городе 1625330 человек. Плюс или минус пять». Вы будете впечатлены моими точными демографическими знаниями.

Но если бы я сказал: «В этом доме пять человек. Плюс или минус пять». Вы могли бы подумать, что я понятия не имел, сколько людей было в доме.

Одно и то же стандартное отклонение, много разных резюме.


1
Это разумный способ объяснить, что такое CoV, но не ясно, насколько он важен для вопроса ОП.
gung - Восстановить Монику

ОП спрашивает: «С точки зрения дисперсии оба одинаковы; различаются только их средства. Так в чем здесь коэффициент вариации?» Я думаю, что мой пример иллюстрирует использование CV как способ интерпретации дисперсии.
Барт

1
Я не отрицал тебя. У OP два явных вопроса: «Как мне интерпретировать этот результат?» И «Какой здесь коэффициент вариации?». Ваше объяснение хорошо, но понимание того, что такое CoV, является лишь первым шагом в ответе на эти вопросы, а не всем ответом на эти вопросы.
gung - Восстановить Монику

4

Обычно вы используете коэффициент вариации для переменных разных единиц измерения или очень разных шкал. Вы можете думать об этом как о соотношении шум / сигнал. Например, вы можете сравнить изменчивость веса и роста учащихся; изменчивость ВВП США и Монако.

В вашем случае коэффициент вариации может не иметь большого смысла вообще, так как значения не сильно отличаются.



2

В действительности обе статистики могут вводить в заблуждение, если вы не знаете или не понимаете свою гипотезу и эксперимент. Рассмотрим этот ужасный пример ... Ходить по двум высотным зданиям по канату, а не ходить по доске. Скажем, канат имеет диаметр 1 дюйм, тогда как планка имеет ширину 12 дюймов. 5 человек попросили пройти по веревке и 5 попросили пройтись по доске. Мы нашли следующие результаты:

Среднее расстояние каждого шага от края (или стороны) каната (дюймы): 0,5, 0,2, 0,3, 0,6, 0,1

Среднее расстояние каждого шага от края (или стороны) доски (дюймы): 5,5, 5,2, 5,3, 5,6, 5,1

Как и в вашем примере, этот пример приведет к одинаковым стандартным отклонениям, так как значения для доски просто +5 отличаются от значений для каната. Однако, если я скажу вам, что стандартное отклонение для каждого эксперимента составляло 0,2074, вы могли бы сказать, что оба эксперимента были эквивалентны. Однако, если я скажу вам, что CV для эксперимента с канатом составила почти 61% по сравнению с менее чем 4% для доски, вы могли бы спросить меня, сколько людей упало с веревки.


0

CV - это относительная вариабельность, которая используется для сравнения вариабельности различных выборочных наборов данных. Например, одно и то же стандартное отклонение / дисперсия с меньшим средним будет генерировать меньшее резюме. это указывает на то, что меньший набор данных CV имеет меньшую относительную изменчивость. Предположим, вы зарабатываете 10000 в месяц, а я зарабатываю 100. (по-разному) все мы, вероятно, теряем 100 в месяц (вариация), мне будет гораздо больше больно, чем вам, поскольку я получу больше резюме (cv = 1 по сравнению с вашим 0,01), относительно большая вариация.


1
Я должен сказать, что это ничего не добавляет к существующим ответам.
Ник Кокс,

0

в этом случае cv не является подходящим статистическим инструментом для объяснения результата.

в зависимости от характера проводимого исследования, следовательно, от цели, исследователь имеет конкретную гипотезу или указывает на доказательство. Он или она должен спроектировать, выполнить эксперимент и проанализировать данные, используя лучший и подходящий статистический инструмент, т. Е. Если эксперимент предназначен для сравнения роста группы 1 и группы 2, хотя cv обоих одинаковы, но с использованием T-теста или парного T- Тест или Anova (больший эксперимент) может легко доказать разницу между двумя группами.

Ключевым моментом здесь является применение соответствующего статистического инструмента, чтобы дать содержательное объяснение результата. Помните, что cv - только один из вариантов в Описательной статистике.

мои 2 цента

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.