Каковы относительные преимущества данных Winsorizing и Trimming?

31

Обесцвечивание данных означает замену крайних значений набора данных определенным значением процентиля с каждого конца, в то время как Обрезка или Усечение включает удаление этих предельных значений.

Я всегда вижу, что оба метода обсуждаются как жизнеспособный вариант, чтобы уменьшить влияние выбросов при вычислении статистики, такой как среднее значение или стандартное отклонение, но я не видел, почему один может выбрать один над другим.

Есть ли какие-либо относительные преимущества или недостатки использования Winsorizing или Trimming? Существуют ли определенные ситуации, когда один метод предпочтительнее? Используется ли чаще на практике или они в основном взаимозаменяемы?

— Брайан
источник

2

Терминология здесь вводит в заблуждение. Подрезка означает игнорирование экстремальных значений, некоторая доля в каждом хвосте. Это не означает удаления или отбрасывания значений в хвостах, не в последнюю очередь потому, что вы можете и обычно должны включать их в другие анализы. Термин усечение лучше всего использовать для других значений. Смотрите, например, en.wikipedia.org/wiki/Truncation_(statistics)

— Ник Кокс

11

В другом, но связанном с этим вопросе об обрезке, с которым я только что наткнулся, в одном ответе было следующее полезное понимание того, почему можно использовать или winsorizing, или обрезку:

Если вы берете урезанное распределение, вы прямо заявляете: меня не интересуют выбросы / хвосты распределения. Если вы считаете, что «выбросы» действительно являются выбросами (т. Е. Они не относятся к распределению, а относятся к «другому виду»), то выполните обрезку. Если вы думаете, что они принадлежат дистрибутиву, но вы хотите иметь менее искаженный дистрибутив, вы можете подумать о winsorising.

Мне любопытно, есть ли более определенный подход, но приведенная выше логика звучит разумно.

— Брайан
источник

4

Хороший вопрос, который часто встречается во всех областях! В любом случае вы технически удаляете их из набора данных.

Я знаю, что при попытке графически найти тенденцию использовать форму усечения является обычной практикой: использовать весь набор данных для построения графиков, но затем исключить крайние значения для интерпретации.

Проблема с «winsorizing» заключается в том, что добавляемые вами части являются самозаполняющимися, то есть они берутся из самого набора данных и поэтому просто поддерживают его. Есть простые проблемы, если вы посмотрите на перекрестную проверку / классификацию в машинном обучении, когда решаете, как использовать обучающие и тестовые наборы данных.

В любом случае я не встречал стандартизированного подхода - он всегда специфичен для данных. Вы можете попытаться выяснить, какой процентиль ваши данные (выбросы) вызывают определенный процент волатильности / ст. отклонение, и найдите баланс между снижением этой волатильности, но сохранением как можно большего количества данных.

— n1k31t4
источник

6

Как и в моем комментарии выше, «удаление их из набора данных» здесь слишком сильно. Обрезка или Winsorizing просто означает, что он делает, игнорируя или заменяя, как может быть, для определенного расчета. Вы не обязаны удалять значения хвоста из набора данных, как если бы вы выбрасывали гнилые фрукты. Например, столкнувшись с возможными выбросами, вы можете провести анализ данных по мере их поступления и анализ, основанный на усечении, и посмотреть, в чем они заключаются.

— Ник Кокс

-1

Это хороший вопрос, с которым я столкнулся. В тех случаях, когда у вас большой набор данных или, точнее, сильно изменяющийся набор данных, где меньшая часть значений данных изменяется в широком масштабе (но, тем не менее, это требуется для отображения), и большая часть набора данных находится в узкой полосе, таким образом, что если данные построены как есть, детали, в которых лежит большая часть данных, теряются, а нормализация или стандартизация не показывают адекватной дифференциации (по крайней мере, визуально), или вместо этого требуются необработанные данные, затем усечение или обесценивание экстремальные значения данных помогают улучшить визуализацию данных.

— гость
источник

Это хороший вопрос, но вы на него не отвечаете. Вы просто говорите, что усечение или Winsorizing может помочь визуализации.

— Ник Кокс

-2

$O(n \log n)$ $O(n)$ $(1,2,3,4,4)$ $(2+2+3+4+4)/5$ $(2+3+4)/3$ $(2+3+4+4)/4$

— Марк Лаката
источник

1

O (n \log n)

$O(n\log n)$

O (n)

$O(n)$

Ты прав. Я опечатал свой оригинальный пост. Иногда печатающие пальцы и мозг не синхронизированы. Я хотел сказать, чтобы правильно рассчитать истинное усеченное среднее , вам нужно отсортировать все элементы данных. Я верю, что это все еще правда. Я обновил ответом.

— Марк Лаката

2

Это, кажется, подразумевает, что Winsorizing означает Winsorizing 25% в каждом хвосте. Вы можете Winsorize столько, сколько кажется нужным.

— Ник Кокс