Замена выбросов на среднее


31

Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос.

Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это утверждение?


25
Это, конечно, возможно , но трудно представить ситуацию, в которой есть смысл это делать.
Питер Флом - Восстановить Монику

2
Уже несколько длинных ответов, но резюме одного предложения @Peter Flom вряд ли будет совпадать с резюме.
Ник Кокс

4
Ни один ответ еще не указал на слона в комнате: хотя замена «выбросов» на среднее значение сохраняет среднее значение набора данных, он изменяет почти любую другую статистику. Это даже меняет оценки стандартной ошибки среднего. Соответственно - в поддержку комментария @Peter Flom - результирующий набор данных не представляется полезным для какой-либо надежной формы вывода. (Возможно, это можно было бы использовать не само по себе, а на промежуточных этапах итеративной процедуры для выявления выбросов, объясняя тем самым, почему такая процедура может существовать в первую очередь.)
whuber

1
@whuber Очевидно, ключевой момент. Я бы сделал это в другом ответе, чтобы никто не пропустил эту тему слишком быстро. Люди, соблазненные этим устройством, и, очевидно, некоторые из них, должны понимать, что это (а) плохая идея (б) плохая идея.
Ник Кокс

1
@ user2357112 Смысл в том, что среднее значение, которое будет использоваться, является средним значением других значений. Значение выброса, которое считается ненадежным, не следует включать в расчет.
Ник Кокс

Ответы:


41

Очевидно, что это возможно, но не ясно, что это может быть хорошей идеей.

Давайте рассмотрим несколько способов, которыми это ограниченное или несовершенное решение:

  • По сути, вы говорите, что значение выброса совершенно ненадежно, поскольку вы можете только предположить , что значение должно быть средним. Если это то, что вы думаете, вероятно, будет более честным просто опустить рассматриваемое наблюдение, поскольку, очевидно, у вас недостаточно информации, чтобы сделать более правильное предположение.

  • Если больше ничего не сказано, вам нужен критерий или критерии для выявления выбросов в первую очередь (как подразумевает @Frank Harrell). В противном случае это произвольная и субъективная процедура, даже если она защищается в порядке суждения. При некоторых критериях возможно, что удаление выбросов таким способом создает еще больше выбросов в качестве побочного эффекта. Примером может служить то, что выбросы - это более чем на столько стандартных отклонений от среднего значения. Удаление выброса изменяет стандартное отклонение, и теперь могут быть определены новые точки данных и т. Д.

  • Предположительно, среднее здесь означает среднее всех других значений, точка, которая была четко сформулирована @David Marx. Идея неоднозначна без этого условия.

  • Использование среднего значения может показаться безопасной или консервативной процедурой, но изменение значения на среднее изменит практически все остальные статистические данные, включая показатели уровня, масштаба и формы, а также показатели их неопределенности, - подчеркивает @whuber.

  • Среднее значение может даже не быть допустимым значением: простые примеры - это когда значения являются целыми числами, но обычно среднее значение не является целым числом.

  • Даже с учетом того, что использование итоговой меры является осторожным, использование среднего значения, а не медианы или какой-либо другой меры требует некоторого обоснования.

  • Всякий раз, когда есть другие переменные, изменение значения одной переменной без ссылки на другие может сделать точку данных аномальной в других смыслах.

Что делать с выбросами - открытый и очень сложный вопрос. Скорее, разные решения и стратегии имеют разную привлекательность. Вот частичный список возможностей. Порядок является произвольным и не предназначен для передачи какого-либо порядка с точки зрения применимости, важности или любого другого критерия. Эти подходы не являются взаимоисключающими.

  • Одно (на мой взгляд, хорошее) определение состоит в том, что «[o] истерики - это значения выборки, которые вызывают удивление по отношению к большей части выборки» (WN Venables и BD Ripley. 2002. Современная прикладная статистика с S. New York: Springer, с.119). Тем не менее, удивление находится в уме смотрящего и зависит от какой-то неявной или явной модели данных. Может существовать другая модель, при которой выбросы вовсе не удивительны, поэтому данные действительно (скажем, логнормальные или гамма, а не нормальные). Короче говоря, будьте готовы (пере) рассмотреть вашу модель.

  • Зайдите в лабораторию или в поле и повторите измерение. Часто это неосуществимо, но в некоторых науках это кажется стандартным.

  • Проверьте, являются ли выбросы подлинными. Большинство тестов для меня выглядят довольно надуманными, но вы можете найти такой, который, по вашему мнению, соответствует вашей ситуации. Всегда необходима иррациональная вера в то, что тест подходит, чтобы применить тест, который затем представляется как наиболее рациональный.

  • Выкинь их как предмет суда.

  • Выбросьте их, используя какое-то более или менее автоматизированное (обычно не «объективное») правило.

  • Игнорировать их, частично или полностью. Это может быть формально (например, обрезка) или просто оставить их в наборе данных, но исключить их из анализа как слишком горячие для обработки.

  • Потяните их, используя какую-то регулировку, например Winsorizing.

  • Приглушите их, используя другой надежный метод оценки.

  • Приглушите их, работая в трансформированном масштабе.

  • Преуменьшать их, используя функцию ссылки без идентификации.

  • Приспосабливайте их, подбирая подходящее распределение с толстым, длинным или тяжелым хвостом, без или с предикторами.

  • Приспособьтесь, используя индикатор или фиктивную переменную в качестве дополнительного предиктора в модели.

  • Обойти проблему, используя некоторую непараметрическую (например, основанную на ранге) процедуру.

  • Получите контроль над подразумеваемой неопределенностью, используя процедуру начальной загрузки, джекнифинга или перестановки.

  • Изменить, чтобы заменить выброс более вероятным значением, основанным на детерминированной логике. «18-летняя бабушка маловероятна, но человек, о котором идет речь, родился в 1932 году, поэтому, по-видимому, ему действительно 81 год».

  • Отредактируйте, чтобы заменить невозможный или неправдоподобный выброс, используя некоторый метод вменения, который в настоящее время является приемлемой не совсем белой магией.

  • Проанализируйте с и без, и посмотрите, как сильно отличаются выбросы, статистически, научно или практически.

  • Что-то байесовское. Мое предыдущее незнание того, что запрещает давать какие-либо подробности.

РЕДАКТИРОВАТЬ Это второе издание пользуется другими ответами и комментариями. Я пытался отметить свои источники вдохновения.


1
(+1) хороший ответ. На байесовской стороне можно сделать много вещей, но на самом деле вы пытаетесь построить какую-то модель того, как вы пришли к таким ценностям (процесс, который привел к выбросу). Например, это может быть что-то простое, например, что «каждое значение данных имеет некоторую небольшую неизвестную вероятность того, что оно находится в распределении, которое намного более дикое, чем массив данных», а затем помещает предварительное распределение в эту вероятность и формализует некоторый выбор для этого дикого Распределение и априоры по его параметрам. Эффект состоит в том, чтобы уменьшить влияние точек, которые не соответствуют модели.
Glen_b

16

Есть несколько проблем, связанных с вашим вопросом.

  1. Что такое "выброс"?
  2. Следует ли заменить «выброс»?
  3. Что особенного в среднем в отличие от какой-то другой оценки?
  4. Как бы вы компенсировали увеличение кажущейся дисперсии после замены одним значением, которое вызывает слишком маленькую дисперсию?
  5. Почему бы не использовать надежные оценки, устойчивые к выбросам?
  6. Это независимая или зависимая переменная?

Ни один из 1-5 не имеет очевидного ответа. Если вы действительно чувствуете, что эти «выбросы» ошибочны, и вы не хотите использовать надежный статистический метод, вы можете исключить их и использовать множественное вменение как одно из возможных решений. Если переменная является зависимой переменной, одним из надежных вариантов является порядковая регрессия.


1
+1, хорошие очки. Я заинтригован предложением OLR; есть ли причина, по которой вы предпочитаете использовать надежную функцию потерь, такую ​​как бисквэда Тьюки?
gung - Восстановить Монику

2
Порядковая регрессия, вероятно, немного более устойчива, чем эта, и позволяет оценивать четко определенные величины: средние, квантили и вероятности. Кроме того, у вас есть вся сила отношения правдоподобия, Уолд, а также тесты и доверительные интервалы. Оценки медианы и среднего в порядковой регрессии не являются избыточными, т. Е. Они не являются тривиально связанными, но им разрешено «плавать» из-за меньшего количества распределительных допущений. YYY
Фрэнк Харрелл

9

В предложении есть множество недостатков. Вот, пожалуй, самый большой.

Предположим, вы собираете данные и видите эти значения:

2,3,1

Среднее значение пока составляет .6/3=2

Затем приходит выброс:

2,3,1,1000

Таким образом, вы замените его на среднее:

2,3,1,2

Следующий номер хорош:

2,3,1,2,7

Теперь среднее значение равно 3. Подождите минуту, среднее значение теперь равно 3, но мы заменили 1000 на среднее значение 2 только потому, что это произошло как четвертое значение. Что если мы изменим порядок образцов?

2,3,1,7,1000

Теперь среднее значение до 1000 составляет . Так мы должны заменить 1000 с этим средним значением?(2+3+1+7)/4=13/4

Проблема в том, что ложные данные, которые мы подставляем вместо 1000, зависят от других данных. Это эпистемологическая проблема, если образцы должны представлять независимые измерения.

Тогда у вас возникает очевидная проблема: вы не просто скрываете данные, которые не соответствуют вашим предположениям, но вы фальсифицируете их. Когда возникает какой-либо нежелательный результат, вы увеличиваете и подставляете поддельное значение. Это неправильно, потому что предполагается, что - это число выборок. Теперь представляет количество выборок плюс количество значений выдумки, добавленных к данным. Это в основном разрушает достоверность всех вычислений с участием : даже те, которые не используют значения выдумки. Ваш тоже значение выдумки!н н н н нnnnnn

По сути, обрезка результатов, которые не соответствуют, - это одно (и это может быть оправдано, если это делается последовательно в соответствии с алгоритмом, а не в соответствии с изменением настроения экспериментатора).

Прямые фальсифицирующие результаты нежелательны по философским, эпистемологическим и этическим соображениям.

Могут быть некоторые смягчающие обстоятельства, которые связаны с тем, как используются результаты. Как, например, скажем, что эта замена выбросов текущим средним значением является частью некоторого встроенного компьютерного алгоритма, который позволяет ему реализовать систему управления с обратной связью. (Он выбирает некоторые системные выходные данные, затем настраивает входные данные для достижения контроля.) Все в режиме реального времени, и поэтому что-то должно быть предоставлено в течение определенного периода времени вместо отсутствующих данных. Если эта помадка помогает преодолеть глюки и обеспечивает бесперебойную работу, то все хорошо.

Вот еще один пример из цифровой телефонии: ПЛК (маскировка потери пакетов). Дерьмо случается, и пакеты теряются, но общение происходит в реальном времени. PLC синтезирует фальшивые фрагменты голоса на основе последней информации основного тона из правильно принятых пакетов. Таким образом, если говорящий произносит гласную «aaa», а затем пакет теряется, PLC может дополнить отсутствующий пакет, экстраполируя «aaa» на длительность кадра (скажем, 5 или 10 миллисекунд или что-то еще). «Ааа» такова, что напоминает голос говорящего. Это аналогично использованию «среднего» для замены ценностей, считающихся плохими. Это хорошая вещь; это лучше, чем звук, включающий и отдающий, и помогает разборчивости.

Если фальсификация данных является частью программы лжи людям, чтобы скрыть неудачную работу, это нечто другое.

Таким образом, мы не можем думать об этом независимо от приложения: как используется статистика? Приведут ли замены к неверным выводам? Есть ли этические последствия?


История телефонии очень интересна, но, похоже, вопрос оправданной интерполяции заменит пропущенные значения. Связь с заменой выбросов незначительна, поскольку необходимы только локальные операции, а локальные изменения являются вторичными по отношению к «анализу» всего набора данных.
Ник Кокс

2
Здесь много интересных идей (+1). Обратите внимание, что процедура замены не обязательно является последовательной. Можно сразу идентифицировать все «выбросы» и заменить все их средним значением остатка. Это последовательная процедура, в отличие от Winsorizing.
whuber

6

В этой статье Кузино и Шартье обсуждается замена выбросов на среднее

http://www.redalyc.org/pdf/2990/299023509004.pdf

Они пишут:

Табачник и Фиделл (2007) предложили заменить отсутствующие данные средним значением оставшихся данных в соответствующей ячейке. Однако эта процедура будет иметь тенденцию уменьшать распространение популяции, делать наблюдаемое распределение более лептокуротическим и, возможно, увеличивать вероятность ошибки I типа. Более сложный метод - множественные вменения - включает замену выбросов (или пропущенных данных) возможными значениями (Elliott & Stettler, 2007; Serfling & Dang, 2009).

Существует также R-пакет "выбросы", который имеет функцию замены выбросов на среднее значение. Я также видел несколько обращений в моем поиске в Google, из которых следует, что SPSS также имеет такую ​​функцию, но я не знаком с этой программой. Возможно, если вы будете следовать темам, вы сможете найти техническую основу для практики.

Ссылки

  • Cousineau, D. & Chartier, S. (2010). Обнаружение и лечение выбросов: обзор. Международный журнал психологических исследований, 3 (1), 58-67.

Я искал в вашей ссылке все вхождения слова «среднее» и не смог найти места, где обсуждается замена выбросов на среднее. Если я что-то пропустил, не могли бы вы указать более точно, где происходит это обсуждение?
whuber

1
Я изменил ссылку, потому что я не мог заставить ее работать. На странице 9 документа автор говорит: «Выбросы, которые явно являются результатом ложного действия, должны быть удалены. Однако в многомерных конструкциях это может привести к удалению слишком большого количества участников, что приведет к невозможности проведения анализа». Табачник и Фиделл (2007) предложили заменить отсутствующие данные средним значением оставшихся данных в соответствующей ячейке ».
Томас

2
Спасибо: я вижу это сейчас. Тем не менее, описание этого как «обсуждение» - которое предполагает, что может быть некоторый баланс между плюсами и минусами - может быть несколько вводящим в заблуждение, поскольку в этом отрывке упоминается процедура подстановки среднего значения (а) только для многомерных приложений и (б) исключительно указать на его недостатки, заканчивая предложением рассмотреть множественное вменение вместо этого. (Интересно, что ссылка на документ об этой процедуре даже не приведена в библиографии.)
whuber

5
Да, странно, что цитируемая ссылка не в нагруднике. Кажется, это книга "Экспериментальные проекты с использованием ANOVA". Я пытался ответить на первоначальный запрос и предоставить ссылки на практику замены среднего значения для выбросов. Эта статья была всем, что я мог найти в быстром поиске, и я надеялся, что он сможет привести потенциальных клиентов, чтобы ОП мог найти более полный ответ.
Томас

4

Главное, что нужно иметь в виду при работе с выбросами, это то, предоставляют ли они полезную информацию. Если вы ожидаете, что они будут происходить на регулярной основе, то удаление их из данных гарантирует, что ваша модель никогда не предскажет их. Конечно, это зависит от того, что вы хотите, чтобы модель делала, но стоит иметь в виду, что вам не обязательно их отбрасывать. Если они содержат важную информацию, вы можете рассмотреть модель, которая может их учитывать. Один из простых способов сделать это - взять журналы переменных, которые могут учитывать отношения степенного закона. В качестве альтернативы, вы можете использовать модель, которая учитывает их, с полным распределением ошибок.

Если вы хотите вырезать их, то обычным способом является либо отбросить их, либо Winsorise их удалить экстремальные значения. У меня нет учебника, но там есть ссылки на вики, если вы хотите читать дальше. В большинстве текстов по прикладной статистике должен быть раздел о выбросах.


3

Мне известны два взаимосвязанных похожих подхода в статистике.

  • Подрезанное означает: при вычислении среднего значения вы отбрасываете самые маленькие и самые большие наблюдения ваших данных (например, верхний и нижний каждый; вы должны делать это симметрично!)1
  • Winsorization: подобно усеченному среднему, вы изменяете только экстремальные наблюдения. Однако вместо того, чтобы отбрасывать их, вы заменяете их на самое большое / самое маленькое неэкстремальное наблюдение. Это часто работает немного лучше, чем обрезка.

Для более подробных примеров, смотрите Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Обратите внимание, что это хорошо работает для некоторой статистики, например, при вычислении среднего значения. Обрезанное / winsorized среднее часто является более точной оценкой истинного среднего, чем среднее арифметическое. В других случаях это может испортить вашу статистику. Например, при вычислении дисперсии обрезка всегда будет недооценивать вашу истинную дисперсию. Winsorization, если предположить, что некоторые экстремальные наблюдения действительно ошибочны, будет работать немного лучше (вероятно, все еще будет недооценивать, но не настолько).

Я не вижу, как замена экстремальных значений на среднее вписалась бы здесь.

Тем не менее, существует другая практика, которая связана с: вменение пропущенного значения . Предполагая, что ваши выбросы являются ошибочными, бесполезными данными, вы удалите их. Когда вы затем выполняете вменение, типичным значением замены будет среднее значение или режим:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
Обрезка асимметрично - известная и оправданная тактика.
Ник Кокс

2

Традиционный подход к обработке выбросов состоит в том, чтобы просто удалить их так, чтобы ваша модель обучалась только на «хороших» данных.

Имейте в виду, что среднее значение зависит от наличия этих выбросов. Если вы замените выбросы на среднее значение, рассчитанное после удаления выбросов из вашего набора данных , это не будет иметь никакого значения, поскольку линия регрессии (из простой линейной регрессии) все равно будет проходить через среднее значение ваших тренировочных данных (это уменьшит дисперсию вашего оценки, что, вероятно, противоположно тому, что вы хотите, учитывая, что вы знаете, что есть выбросы).

Влияние вашего подхода на модель зависит от влияния (влияния) выброса. Я бы рекомендовал против подхода, который вы предлагаете вместо того, чтобы просто полностью удалить точку.


4
Удаление данных приведет к смещению, если только процедура удаления не является объективной, и эта же процедура будет применяться ко всем будущим данным, для которых получены прогнозы.
Фрэнк Харрелл

0

да, выбросы могут быть заменены в майских формах, например, давайте возьмем набор данных размера человеческих высот, скажем, у нас есть некоторые выбросы, такие как 500 см и 400 см, тогда мы можем просто заменить те точки данных, которые появляются в набор данных из-за какой-то ошибки, которая была вызвана во время записи данных. поэтому вы можете попробовать следующие варианты: 1. замените его на медиану всего цвета данных (не среднее значение, так как оно подвержено выбросам). 2. замените на наиболее часто встречающуюся точку данных в столбце. 3. Если категориальные значения, то вы можете попробовать кодирование ответа (в котором вы записываете вероятность слова или значения, встречающиеся по общему количеству слов).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.