Следует ли использовать среднее значение при перекосе данных?


14

Часто вводные тексты по прикладной статистике отличают среднее от медианного (часто в контексте описательной статистики и мотивации суммирования центральной тенденции с использованием среднего, медианного значения и режима), объясняя, что среднее значение чувствительно к выбросам в данных выборки и / или искаженное распределение населения, и это используется в качестве оправдания для утверждения, что медиана должна быть предпочтительной, когда данные не симметричны.

Например:

Наилучшая мера центральной тенденции для данного набора данных часто зависит от того, каким образом распределяются значения .... Когда данные не симметричны, медиана часто является лучшей мерой центральной тенденции. Поскольку среднее значение чувствительно к экстремальным наблюдениям, оно вытягивается в направлении значений внешних данных, и в результате оно может оказаться чрезмерно раздутым или чрезмерно
сдутым . "- Pagano and Gauvreau, (2000) Принципы биостатистики , 2-е изд. (P & G были под рукой, кстати, не выделяя их как таковые .)

Авторы определяют «центральную тенденцию» следующим образом: «Наиболее часто исследуемой характеристикой набора данных является его центр или точка, в которой наблюдения имеют тенденцию группироваться».

Это кажется мне менее чем прямым способом сказать, что используется только медиана, период , потому что только использование среднего значения, когда данные / распределения симметричны, - это то же самое, что сказать, использовать только среднее значение, когда оно равно медиане. Изменить: что справедливо указывает на то, что я объединяю надежные меры центральной тенденции с медианой. Поэтому важно иметь в виду, что я обсуждаю конкретное обрамление среднего арифметического и медианы во вводной прикладной статистике (где, если не считать, другие показатели центральной тенденции не мотивированы).

Вместо того, чтобы судить о полезности среднего по тому, насколько оно отличается от поведения медианы, не должны ли мы просто понимать это как две разные меры центральности? Другими словами, чувствительность к асимметрии является характерной чертой. С таким же успехом можно утверждать, что «медиана не годится, потому что она в значительной степени нечувствительна к асимметрии, поэтому используйте ее только тогда, когда она равна среднему».

(Режим довольно разумно не связывается с этим вопросом.)


3
Лично мне нравится включать как показатели, так и среднее значение, которые дадут читателю не только некоторую информацию о центральной тенденции, но также и представление о том, насколько искажены данные.
bdeonovic

1
Некоторый контекст и разъяснение улучшит этот вопрос. (1) В каком контексте эти (гипотетические) вступительные тексты утверждают, что среднее должно быть предпочтительным, и для какой цели? (2) Как именно эти тексты "оценивают полезность среднего по тому, насколько оно отличается от поведения медианы"? Не могли бы вы привести пример или цитату, чтобы мы могли лучше понять?
whuber

2
В какой-то момент вы неверно истолковали: медиана - не единственная статистика, которая является достоверной для нескольких экстремальных наблюдений. Таким образом, среднее значение указывается на основе (часто) нежелательной характеристики, а не в сравнении с медианой. Но я также получаю проблеск вашей озабоченности, и, возможно, это связано с неявным сочетанием асимметрии и существования выбросов, которые встречаются в этой цитате. Это, к сожалению, непродуманно, потому что, хотя наличие выбросов иногда подразумевает асимметрию, обратное не всегда верно.
whuber


2
В свете определения, данного для «центральной тенденции», становится ясно, почему среднее значение не будет полезным показателем при наличии перекосов или выбросов. Независимо от того, хотите ли вы действительно оценить это понятие центральной тенденции, это другой вопрос!
Jsk

Ответы:


16

Я не согласен с советом, как с категорическим правилом. (Это не общее для всех книг.)

Проблемы более тонкие.

Если вы на самом деле заинтересованы в том, чтобы делать выводы о среднем по населению, то выборочное среднее по крайней мере является его объективной оценкой и имеет ряд других преимуществ. На самом деле, см. Теорему Гаусса-Маркова - это лучшая линейная несмещенность.

Если ваши переменные сильно искажены, проблема связана с «линейным» - в некоторых ситуациях все линейные оценки могут быть плохими, поэтому лучшие из них могут все еще быть непривлекательными, поэтому оценка среднего значения, которое является нелинейным, может быть лучше , но для этого нужно знать кое-что (или даже много) о распределении. У нас не всегда такая роскошь.

Если вы не обязательно заинтересованы в выводе, относящемся к значению населения (« какой типичный возраст? », Скажите, или есть более общий сдвиг местоположения от одного населения к другому, который может быть сформулирован с точки зрения любого местоположения, или даже тест одной переменной (стохастически больше, чем другой), а затем приведение этого значения в терминах среднего значения по населению либо не нужно, либо, вероятно, контрпродуктивно (в последнем случае).

Поэтому я думаю, что все сводится к тому, чтобы

  • какие у тебя реальные вопросы? Означает ли население, что в такой ситуации вообще стоит спросить?

  • Как лучше всего ответить на вопрос в данной ситуации (в данном случае асимметрия)? Является ли использование выборки лучшим способом ответить на интересующие нас вопросы?

Может случиться так, что у вас есть вопросы не напрямую о средствах населения, но, тем не менее, выборочные средства - хороший способ взглянуть на эти вопросы ... или наоборот - вопрос может быть о средствах населения, но выборочные средства могут быть не лучшим способом ответь на этот вопрос


14

В реальной жизни мы должны выбирать меру центральной тенденции, основанную на том, что мы пытаемся выяснить; и да, иногда режим - это то, что нужно. Иногда это Winsorized или подстриженное среднее. Иногда геометрическое или гармоническое среднее. Иногда нет хорошей меры центральной тенденции.

Вступительные книги написаны плохо, они учат, что есть правила поваренной книги, которые нужно применять.

Бери доход. Это часто очень искажено и иногда имеет выбросы; Конечно, мы обычно видим «средний доход». Но иногда выбросы и асимметрия важны. Это зависит от контекста и требует обдумывания.

Я написал больше об этом


2
Питер, большое спасибо за ссылку на твой пост. Я хотел бы, чтобы вступительные тексты занимали от 1 до 2 страниц пространства, необходимого для того, чтобы обеспечить столь же продуманное рассмотрение, как вы предоставили там.
Алексис

4
Я не написал ни одного, но хочу добавить немного защиты вступительных текстов. Любой вводный текст, в котором делается попытка дать полное представление о том, что опытные специалисты признают как таковой, будет поднят почти всеми предполагаемыми получателями; на самом деле это даже не будет опубликовано.
Ник Кокс

5
Комментарий по существу: когда значения аддитивны так, что итоги имеют (например, физический смысл), среднее значение представляет собой естественное резюме, независимо от распределения отдельных значений.
Ник Кокс

3
@NickCox Я думаю, что вводные тексты могут быть намного лучше, чем они. Для среднего и среднего это даже не математический аргумент, а существенный. Вступительные тексты должны сказать человеку, читающему их, что они не достаточно квалифицированы для анализа данных.
Питер Флом - Восстановить Монику

2
@jsk. О хорошо Я думаю, что они должны быть четко указаны в статистике, потому что многие люди думают, что они готовы после одного курса анализа данных; действительно, во многих областях (психология, социология, медицина и т. д.) люди должны проводить анализ данных только после 1, 2, а иногда и 3 курсов. Например, в программах PhD ожидается, что они будут писать диссертации. Почему это более очевидно в других областях? Я не уверена.
Питер Флом - Восстановить Монику

6

Даже когда данные искажены (например, расходы на здравоохранение рассчитаны параллельно с клиническим испытанием, когда немногие пациенты составили нулевую стоимость, потому что они умирают сразу после зачисления, и немногие пациенты накопили тонны стоимости из-за побочных эффектов данной исследуемой программы здравоохранения ) среднее значение может быть предпочтительнее медианного по крайней мере по одной практической причине: умножение средней стоимости на количество пациентов дает лицам, принимающим решения в области здравоохранения, влияние на бюджет изучаемой технологии здравоохранения.


Повторяя комментарий Карло: если вас интересует общая численность населения (например, в выборке аудита), то вас интересует среднее значение периода. Если не имеет значения, насколько искажен или склонен к распространению дистрибутив, вам просто придется иметь дело с этим. Вы не можете Winsorize, обрезать, иначе удалить выбросы или преобразовать лог. Расслоение может очень помочь; в случае экстремальных выбросов они должны быть сделаны как слои сами по себе.
Питер Уэстфолл,

3

Я думаю, что то, что отсутствует в этом вопросе, а также в обоих ответах, так это то, что обсуждение среднего значения по медиане в книгах по вводной статистике обычно происходит в начале главы о том, как численно обобщить распределение. В отличие от логической статистики, обычно речь идет о создании описательной статистики, которая была бы полезна для числовой передачи информации о распределении данных, а не графически. Контекст, в котором это возникает, представляет собой раздел описательной статистики отчета или журнальной статьи, в котором обычно нет места для графических сводок всех переменных в вашем наборе данных. Если распределение искажено, в этом контексте представляется разумным выбирать медиану над средним. Если распределение симметрично без выбросов,


1
Ваша точка зрения по поводу описательной и выводной статистики имеет смысл. Но вы фактически говорите (для описательной статистики) «используйте среднее значение только тогда, когда оно совпадает со средним». Если распределение искажено, то медиана плохо справляется с представлением концепции на душу населения , верно? Так разве не так правильно занимать позицию «использовать медиану только тогда, когда она равна среднему?» Это так же произвольно, и, кажется, отвлечь внимание от основного значения этих мер (для людей, изучающих их).
Алексис

1
Цель не в том, чтобы представить концепцию на душу населения? Говорит кто? Почему предполагается, что это не цель?
Алексис

1
Я не вижу какой-либо грубости или «шокированности», исходящих от ОП ... просто
говорю

1
Я не вижу, что имеет значение, делаете ли вы логическую или описательную статистику в этом случае. Если подходящей описательной мерой центральной тенденции является медиана, то следует сделать выводы о медиане; если значит, то значит. Если никакая описательная мера не имеет смысла, то никакая логическая мера также не будет иметь смысла.
Питер Флом - Восстановить Монику

1
@PeterFlom Как насчет случаев, когда конечная цель не является выводом? Я согласен, что уместность описательной статистики полностью зависит от причины создания статистики. Представление о том, что возможно, что «никакая описательная мера не имеет смысла», по-видимому, подразумевает, что описательная статистика не может быть по своей сути значимой. Я бы сказал, что почти во всех случаях медиана имеет смысл как мера центра распределения по определению. Имеет ли это смысл для других целей - это другой вопрос.
Jsk
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.