Почему средний возраст лучше, чем средний возраст?


41

альтернативный текст

альтернативный текст

Очевидно, медиана является статистикой выбора, когда речь идет о возрастах.

Я не могу объяснить себе, почему среднее арифметическое было бы хуже статистики. Почему это так?

Первоначально размещен здесь, потому что я не знал, что этот сайт существует.


4
Похоже, у вас уже был разумный ответ на другом сайте?
Шейн

1
@ Шейн: Но, возможно, разные сайты имеют потенциал для получения разных ответов с разных точек зрения?
whuber

Ответы:


42

Статистика не дает хорошего ответа на этот вопрос, на мой взгляд. Например, среднее значение может быть релевантным в исследованиях смертности, но возраст не так легко измерить, как вы думаете. Например, пожилые люди, неграмотные люди и люди в некоторых странах третьего мира имеют тенденцию к возрасту, кратному 5 или 10.

Медиана более устойчива к таким ошибкам, чем средняя. Кроме того, средний возраст обычно составляет 20-40 лет, но люди могут жить до 100 и более лет (растущая и заметная доля населения современных стран в настоящее время живет за пределами 100). Люди такого возраста имеют в среднем от 1,5 до 4 раз больше влияния, чем на медиану, по сравнению с очень молодыми людьми. Таким образом, медиана является немного более современной статистикой, касающейся возрастного распределения страны, и немного более независима от показателей смертности и ожидаемой продолжительности жизни, чем среднее значение.

Наконец, медиана дает нам немного лучшую картину того, как выглядит само распределение по возрасту: например, когда вы видите медиану 35 лет, вы знаете, что половина населения старше 35 лет, и вы можете сделать некоторые выводы о показателях рождаемости, возраст родителей и т. д .; но если среднее значение равно 35, вы не можете сказать так много, потому что на эти 35 может повлиять, например, большой всплеск населения в возрасте 70 лет или, возможно, разрыв в населении в некотором возрастном диапазоне из-за старой войны или эпидемии.

Таким образом, по демографическим, а не статистическим причинам медиана представляется более достойной роли сводного значения для суммирования возрастов относительно больших групп населения.


1
Я думаю, что вы имели в виду «Медиана более устойчива к таким ошибкам, чем среднее». Хотя я согласен с вашими комментариями и считаю, что перепись в США обычно отражает средние значения по многим категориям в официальных отчетах (а не только по возрасту) по практически всем тем же причинам. Доход, возможно, даже лучший пример, чем возраст, чтобы проиллюстрировать такие моменты.
Энди W

Вы заменили факт - среднее значение чувствительно к выбросам / асимметричным распределениям - для выражения значения о предпочтении медианы над средним. В сущности, вы утверждали, что среднее значение не следует предпочитать, потому что оно не является медианой (во многом как те, кто говорит, что следует использовать среднее значение только для симметричных распределений, т.е. когда среднее и медиана равны).
Алексис

1
@Alexis Я не слежу за твоей критикой. Не могли бы вы уточнить? В конце концов, этот ответ дает гораздо больше, чем просто «факт»: он содержит довольно много из них, а также анализ их последствий. И, в частности, к какому «утверждению о стоимости» вы ссылаетесь?
whuber

Меня беспокоит то, что фактические характеристики среднего и медианного значения (например, первое чувствительно к выбросам, а именно: «Люди такого возраста оказывают влияние в среднем в 1,5–4 раза больше, чем на медиану по сравнению с очень молодыми людьми».) станьте переведенными в ценности о их ценности, а именно: «Медиана дает нам немного лучшую картину того, как выглядит само распределение по возрасту». Первое - это факт, позднее - оценка этого факта. Мое беспокойство связано с переключением между ними. Больше: stats.stackexchange.com/questions/96371/…
Алексис

1
@Alexis Пожалуйста, имейте в виду, что этот вопрос не об использовании среднего значения или медианы в целом, а об их полезности при оценке распределения по возрасту. Обратите внимание, что в самом начале мой ответ подтверждает, что панацея отсутствует: это среднее значение полезно и актуально для конкретных целей. Я не думаю, что совершил грех, в котором вы меня обвиняете, - смутное применение слова «лучше»: я тщательно обрисовал, как медиана и среднее значение отличаются в этом контексте . Для меня это звучит так, как будто у вас есть проблема, касающаяся средств против медиан, но это не место для этого.
whuber

16

Джон дал вам хороший ответ на сайте сестры.

Один аспект, который он не упомянул в явном виде, - это надежность: медиана как мера центрального положения лучше, чем среднее, поскольку она имеет более высокую точку разбивки (50%), в то время как среднее имеет очень низкое значение из 0 (подробности см. В Википедии). ).

Интуитивно, это означает, что отдельные плохие наблюдения не искажают медиану, тогда как они делают для среднего.


9
Разбивка не является проблемой для описательной статистики всего населения.
whuber

12

Вот мой ответ, впервые опубликованный на math.stackexchange:

Медиана - это то, что на самом деле имеют в виду многие люди, когда говорят «значит». Медиану легче интерпретировать: половина населения старше этого возраста, а половина ниже. Среднее немного более тонко.

Люди ищут симметрию и иногда навязывают симметрию, когда ее там нет. Распределение по возрасту в популяции далеко не симметрично, поэтому среднее значение может вводить в заблуждение. Распределение по возрасту - это что-то вроде пирамиды. Много детей, не много пожилых. (Или, по крайней мере, так оно и происходит в своего рода устойчивом состоянии. В США поколение бэби-бума после Второй мировой войны исказило это распределение по мере старения. Некоторые люди называют это «возведением в квадрат пирамиды», потому что бумеры сделали вершина пирамиды шире, чем была в прошлом.)

При асимметричном распределении может быть лучше сообщить медиану, потому что это симметричная статистика. Медиана является симметричной, даже если распределение выборки не является.


В каком смысле медиана является «симметричной» статистикой? Это, конечно, не тот случай, когда распределения имеют тенденцию симметрично распределяться относительно их медианы (или относительно их средств). Если вы имеете в виду только то, что написали в другом комментарии, что «медиана делит население пополам» (что определяет медиану), ваш аргумент звучит циркулярно: медиана хороша, потому что медиана - это медиана!
whuber

7

Почему топор лучше топора?

Это похоже на ваш вопрос. Они просто имеют в виду и делают разные вещи. Если говорить о медианах, то история, которую они пытаются донести, модель, которую они пытаются применить к данным, отличается от модели, в которой есть средства.


4

Для конкретного примера рассмотрим средний возраст для Конго (ДРК) и Японии. Один из них опустошен гражданской войной, другой хорошо развит со стареющим населением. Среднее значение не очень интересно для сравнения яблок с яблоками. С другой стороны, медиана может быть информативной как мера центральной тенденции, так как по определению у нас половина выше, половина ниже. Статья в Википедии, посвященная пирамиде народонаселения, может быть полезной (см. Разделы, посвященные росту численности молодежи, старению населения).


3

Хранилища данных общественного здравоохранения в Соединенных Штатах движутся в направлении AGE в формате лет с шагом в пять лет из-за воздействия правил HIPAA, касающихся преднамеренного ослепления и маскировки данных в целях личной конфиденциальности.

Учитывая эту проблему с тем, что было в прошлом (до HIPAA) довольно масштабным элементом данных уровня мер, основанным на разнице между датой рождения и датой смерти, нам, возможно, придется пересмотреть AGE как переменную шкалы, которая может быть Параметрически описаны вообще в наборах данных общественного здравоохранения, в пользу моделей, которые описывают AGE непараметрическим способом, как порядковый уровень измерения. Я знаю, что это может показаться «чрезмерным» многим фракциям в сообществе биомедицинской информатики, но эта идея может иметь некоторую ценность с точки зрения «интерпретации», как описано в комментариях выше.

Как насчет всей аналитической силы, которая доступна для непараметрических подходов? Да, это правда, что каждый из нас почти повсеместно будет пытаться применить методы GLM (общая линейная модель) к переменной, которая представляется нам в распределениях, которые ведут себя так, как AGE.

В то же время необходимо учитывать форму этого распределения и то, как эта форма определяется эффектами многомерного взаимодействия на многомерных центроидах и центроидах подгрупп, присутствующих в распределении. Что делать с этими очень сложными наборами данных?

Когда элемент данных не соответствует «допущениям модели», мы постепенно сканируем (я сказал поперек, а не вниз; мы должны быть равноправными работодателями метода, каждый инструмент поставляется фабрикой с формой, соответствующей правилам функции), список Из других возможных моделей можно найти те, которые «не подведут» тесты допущений.

В существующем формате в наборах данных общественного здравоохранения нам действительно (как сообществу по визуализации данных) действительно нужно придумать более стандартную модель для обработки AGE с шагом в пять лет (5YI). Мой голос за визуализацию данных AGE (с учетом нового формата 5YI) заключается в использовании гистограмм и графиков прямоугольников и усов. Да, это означает, медиана. (Не каламбур!)

Иногда картинка действительно стоит тысячи слов, а реферат - это краткое изложение тысячи слов. График прямоугольника и вискера показывает «форму» распределения как значимое символическое представление гистограммы с почти пиктограммой разрешения. Сравнение распределений пятилетних возрастных возрастов с показом бокса «бок о бок» и графиков усов, где можно мгновенно визуально сравнить паттерны от 75-го до 50-го (медиана) с уровнем ниже 25-го ntile, сделало бы элегантный «универсальный стандарт» для сравнения AGE через мир. Для тех из нас, кто продолжает получать удовольствие от представления данных с помощью текстовой механики табличного отображения, диаграмма «ствол и лист» также может быть полезна, когда она используется в качестве элемента анимированной визуальной графики в «спарклайне».

ВОЗРАСТ достиг совершеннолетия. Это требует дальнейшего изучения с помощью более мощных вычислительных алгоритмов, которые сейчас доступны.


1
Это хорошо написанное сообщение, но, похоже, оно не имеет никакого отношения к исходному вопросу.
Энди В.

Я думаю, что это косвенно, но надлежащим образом решает очевидную цель вопроса, @Andy. Ошибка, если таковая имеется, заключается в самом вопросе, который неоднозначен, потому что он не указывает, в каком смысле среднее значение может быть «хуже», чем медиана. Хороший ответ поэтому должен изучить это и рассмотреть цель суммирования распределения по возрасту с единственной статистикой. Здесь это естественным образом приводит к обсуждению того, что может означать «возраст» и как целесообразно сравнивать распределение по возрасту.
whuber

3

Я не думаю, что есть хорошая описательная причина для выбора медианы над средним для распределения по возрасту. Существует одна практичность при сравнении сообщаемых данных.

Многие страны сообщают о своем населении с 5-летними возрастными интервалами с открытым верхним диапазоном. Это вызывает некоторые трудности при расчете среднего значения по интервалам, особенно для самого младшего интервала (на который влияют показатели младенческой смертности), верхнего «интервала» (что означает среднее значение «более 80 интервалов»?) И ближайших верхних интервалов ( среднее значение каждого интервала обычно ниже среднего).

Гораздо проще оценить медиану путем интерполяции внутри медианного интервала, часто аппроксимируя, предполагая равномерное распределение возраста или трапеции в этом интервале (во многих странах показатели смертности относительно низки относительно медианного возраста, что делает это более разумным приближением, чем для молодых или старых).


3

Чтобы дать полезный ответ, оригинальный вопрос требует, чтобы мы знали вопрос позади вопроса. Другими словами: «Зачем вам нужна какая-то сводная статистика, сравнивающая распределение по возрасту в разных странах?» Медиана может быть наиболее полезной для некоторых вопросов. Среднее может быть самым полезным для других. И, возможно, есть вопросы, где «процент выше (или ниже) определенного возраста» будет наиболее полезной статистикой.


2

Вы получаете хорошие ответы здесь, но позвольте мне добавить свои 2 цента. Я работаю в фармакометрии, которая занимается такими вещами, как объем крови, уровень выведения, базовый уровень лекарственного эффекта, максимальный лекарственный эффект и подобные параметры.

Мы делаем различие между переменными, которые могут принимать любое значение плюс или минус, по сравнению со значениями, которые могут быть только положительными. Примером переменной, которая может принимать любое значение, плюс или минус, может быть эффект препарата, который может быть положительным, нулевым или отрицательным. Примером переменной, которая может быть только реалистичной, является объем крови или уровень выведения лекарств.

Мы моделируем эти вещи с помощью распределений, которые обычно либо нормальны, либо логнормальны, нормальны для произвольных значений и логнормальны для единственно положительных. Логнормальное число - это число E, взятое в степень нормально распределенного числа, и поэтому оно может быть только положительным.

Для нормально распределенной переменной медиана, среднее и мода - это одно и то же число, поэтому не имеет значения, какой вы используете. Однако для логнормально распределенной переменной среднее значение больше, чем и медиана, и мода, поэтому на самом деле это не очень полезно. На самом деле, медиана - это то, где базовая норма имеет свое среднее значение, так что это гораздо более привлекательная мера.

Поскольку возраст (предположительно) никогда не может быть отрицательным, логнормальное распределение, вероятно, лучше описывает его, чем нормальное, поэтому медиана (от E до среднего базового значения) является более полезной.


5
Распределение по возрасту, конечно, не является нормальным.
Роб Хиндман

1
Я не думаю, что вы можете сделать вывод, что возраст обычно распределяется только по факту, что он всегда положительный. Распределения гаммы и Вейбулла также всегда положительны, так почему бы не выбрать их?
Нико

@Rob: @nico: я уверен, что ты прав. Это был плохой выбор примера. Обычно мы моделируем фармакометрические параметры, такие как объем и клиренс.
Майк Данлавей,

2

Меня учили, что медиана должна использоваться с диапазоном и средним значением со стандартным отклонением. Когда мы говорим о возрасте, я думаю, что диапазон является более актуальным способом выражения спреда, и его легче понять большинству. Например, в исследуемой популяции средний возраст составлял 53 года (SD 5,4) или средний возраст составлял 48 лет (диапазон 23-77 лет). По этой причине я предпочел бы использовать медиану, а не среднее. Но мне было бы очень интересно узнать, что скажет статистика или профессионал об использовании среднего с диапазоном? Я вижу это довольно много в научных работах.


Добро пожаловать в резюме, Сюзанна. Если вы опубликовали это в попытке получить ответы, удалите его и повторно отправьте как новый вопрос. Инструкции по использованию этого сайта доступны в нашем справочном центре .
whuber

1

Ответ Джона на math.stackexchange можно рассматривать следующим образом:

Если у вас асимметричное распределение, медиана может быть лучшей суммарной статистикой, чем среднее значение.

Обратите внимание, что когда он говорит, что младенцев больше, чем взрослых, он, по сути, предполагает, что распределение по возрасту является искаженным.


На самом деле, я думаю, что в настоящее время во многих странах перекос направлен скорее на пожилых людей, чем на детей.
JM не статистика

Возможно, оно искажено в другую сторону, но общая точка зрения остается в силе. Для искаженных распределений медиана может иметь больше смысла, чем среднее значение.

Я только что обновил свой ответ на math.stackexchange, чтобы подчеркнуть именно этот момент. Люди ищут симметрию и могут неправильно навязать симметрию, когда ее там нет. Когда вы сообщаете о медиане, вы даете симметричный ответ - медиана делит население пополам - даже если распределение не симметрично.
Джон Д. Кук

Этот ответ всегда кажется мне несколько скрытным: когда распределения не асимметричны (то есть они симметричны), среднее значение равно медиане, поэтому утверждение, что медиана «лучше», когда распределение асимметрично, является закулисным способом сказать «только использовать» Медиана. "
Алексис

1

Я надеюсь, что средний возраст будет зависеть от выбросов в вашем наборе данных, в то время как это не относится к среднему возрасту. Давайте возьмем пример набора данных вакцинированных пациентов: 1,2,3,4,4,5,6,6,6,78 лет среднее значение будет: 11,5, а средний возраст этих пациентов составляет 4,5. этот средний возраст был затронут выбросом 78. Медиана является лучшей, когда речь идет о наборах данных о перекосе распределения.


Смотрите мой ответ на User28.
Алексис

0

Конечно, в случае демографического анализа, я думаю, что и среднее значение, и медиана были бы полезны, особенно в сочетании друг с другом, если вы ищете выбросы или области роста, которые могут быть неправильно обозначены только медианой. В общинах с большим пенсионным сообществом или в районе, где наблюдается рост рождаемости, только медиана может не дать вам полную картину, и именно здесь среднее значение, по сравнению, может быть очень полезным.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.