Имеется в виду SD или Median MAD для суммирования сильно искаженной переменной?


11

Я работаю с сильно искаженными данными, поэтому я использую медиану вместо среднего для суммирования центральной тенденции. Я хотел бы иметь меру дисперсии Хотя я часто вижу людей, сообщающих о среднем стандартном отклонении±± ± или медиане квартилях,± чтобы подвести итог центральной тенденции, можно ли сообщать о медиане медианной абсолютной дисперсии (MAD)± ? Есть ли потенциальные проблемы с этим подходом?

Я бы нашел этот подход более компактным и интуитивно понятным, чем отчеты о нижнем и верхнем квартилях, особенно в больших таблицах, полных цифр.


3
Я думаю, что средний, нижний и верхний квартили совместно описали бы данные лучше. Вы можете найти другую описательную статистику здесь .

1
Я хочу быть максимально кратким: медиана + 2 квартили в порядке?
Мулон

4
MAD является точной статистикой для выражения дисперсии пакета данных - он более устойчив к выбросам, чем межквартильный диапазон. Но вы, возможно, захотите подумать о том, что в действительности означало бы среднее значение MAD, и как ваша аудитория должна это интерпретировать. Он не обладает такими же асимптотическими или неравномерными по Чебейшеву свойствами среднего значения SD. Возможно, именно поэтому такие выражения используются редко, если вообще используются. ±±±
whuber

1
Я всегда думал, что MAD означает среднее абсолютное отклонение, аналог mse, что означает среднеквадратическую ошибку. это среднее абсолютных отклонений от среднего, а не медиана. Я прав или я схожу с ума?
Майкл Р. Черник

2
На картинке тысячи слов, по возможности показ гистограммы очень мощный.
bdeonovic

Ответы:


7

Я не думаю, что медиана безумный уместен в целом. ±

Вы можете легко построить распределения, в которых 50% данных немного ниже медианы, а 50% данных разбросаны намного больше медианы - например, (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 , +1000000). Нотация 5 0.10, кажется, предполагает наличие некоторой массы вокруг (median + mad ~ = 5.10), и это не всегда так, и вы даже не подозреваете, что есть большая масса около 1000000.±

Квартили / квантили дают гораздо лучшее представление о распределении за счет дополнительного числа - (4.9,5.0,1000000.0). Я сомневаюсь, что это совершенно совпадение, что асимметрия - это третий момент, и мне, кажется, нужны три числа / измерения, чтобы интуитивно визуализировать искаженное распределение.

Тем не менее, в этом нет ничего плохого как такового - я просто утверждаю интуицию и читабельность здесь. Если вы используете это для себя или своей команды, сходите с ума. Но я думаю, что это смутит широкую аудиторию.


2
(+1) Я хотел бы добавить, что определение асимметрии в терминах третьего момента в настоящее время не является наиболее приемлемым, поскольку оно может применяться только к распределениям со светлыми хвостами. Более современные определения асимметрии основаны на квантилях, некоторые из них можно найти здесь .

1
@amoeba Это так? Страница Википедии для MAD определяет ее как Медиана (| Xi - Медиана (X) |), которая равна 0,1 с данными.
Upper_Case

@Upper_Case Спасибо. Я был не прав (забыл про 5-5 = 0 семестр). Я удалю свой комментарий выше, чтобы не запутывать будущих читателей!
говорит амеба, восстанови Монику

4

Использование MAD сводится к предположению, что лежащее в основе распределение является симметричным (отклонения выше медианы и ниже медианы считаются одинаковыми). Если ваши данные искажены, это явно неправильно: это приведет к переоценке истинной изменчивости ваших данных.

К счастью, вы можете выбрать одну из нескольких альтернатив сумасшедшим, которые одинаково устойчивы, почти так же просты для вычисления и не предполагают симметрии.

Посмотрите на Rousseeuw и Croux 1992 . Эти концепции хорошо объяснены здесь и реализованы здесь . Эти две оценки являются членами так называемого класса U-статистики, для которого существует хорошо разработанная теория.


1

«В этой статье изучается более точный индекс асимметрии. В частности, предлагается использовать левую и правую дисперсию и вводится индекс асимметрии на их основе. Несколько примеров демонстрируют ее полезность. Вопрос более точной оценки дисперсии данных о среднем появляется во всех несимметричных распределениях вероятности. Когда распределение населения несимметрично, среднее значение и дисперсия (или стандартное отклонение) набора данных не дают точного представления о распределении данных, особенно форма и симметрия. Утверждается, что среднее значение, предполагаемая левая дисперсия (или левое стандартное отклонение) и правая дисперсия (или правое стандартное отклонение) описывают набор данных более точно ».

Ссылка на сайт


3
Вы процитировали реферат статьи и предоставили что-то похожее на URL (я позволил себе исправить ссылку). Это не тот тип ответов, который мы ищем здесь; Я рекомендую вам отредактировать свой ответ и попытаться добавить несколько собственных комментариев о том, почему эта ссылка помогает ответить на вопрос. Ответ был бы намного лучше, если бы вы объяснили, как этот индекс асимметрии связан со средней центральной тенденцией и MAD.
MånsT
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.