Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель


15

У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8.

Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно, уместно ли удалять эти экземпляры из данных? Или это своего рода обман для улучшения модели прогнозирования?

введите описание изображения здесь


1
(1) Я вижу результаты по четырем методам, а не по трем. (2) Как удаление доказательств возможностей прогнозирования может улучшить методы?
whuber

@whuber (1) исправлено. Что касается (2), то есть вы имеете в виду, что удаление экземпляра с очень неточным прогнозом не приведет к улучшению общей эффективности прогнозирования (это я и имел в виду под «улучшением модели» ?
renakre

7
удаление наблюдения по любой причине (скажем, 4 наименее подходящих точки) само по себе является выбором модели. Вы должны оценить эффективность прогнозирования этой второй модели выбора тоже . Важным моментом является сохранение целостности окончательного набора тестов, используемого для оценки эффективности общего метода прогнозирования. Из вашего вопроса не ясно, планируете ли вы обновить модели (Лассо и т. Д.) После удаления плохо предсказанных данных.
user603

2
В качестве дополнительного замечания я хотел бы добавить, что иногда в выбросах скрывается большая ценность, и на них стоит внимательно посмотреть.
Дрор Атария

@DrorAtariah Спасибо, Дрор, я согласен. Экстремальные случаи ценны.
Renakre

Ответы:


22

Это почти всегда обман, чтобы удалить наблюдения, чтобы улучшить регрессионную модель. Вы должны отбросить наблюдения только тогда, когда вы действительно думаете, что это на самом деле выбросы.

Например, у вас есть временной ряд от пульсометра, подключенного к вашим умным часам. Если вы посмотрите на серию, легко увидеть, что будут ошибочные наблюдения с показаниями, такими как 300 бит / с. Они должны быть удалены, но не потому, что вы хотите улучшить модель (что бы это ни значило). Это ошибки в чтении, которые не имеют никакого отношения к вашему сердечному ритму.

Однако следует соблюдать осторожность и соотносить ошибки с данными. В моем примере можно утверждать, что у вас есть ошибки, когда монитор сердечного ритма смещается во время упражнений, таких как бег или прыжки. Что сделает эти ошибки коррелированными с частотой сердцебиения. В этом случае необходимо соблюдать осторожность при удалении этих выбросов и ошибок, потому что они не случайны

Я дам вам вымышленный пример того, когда не следует удалять выбросы . Допустим, вы измеряете движение веса на пружине. Если вес невелик относительно силы веса, то вы заметите, что закон Гука работает очень хорошо: где F - сила, k - коэффициент натяжения, а Δ x - положение веса. ,

Fзнак равно-КΔИкс,
FКΔИкс

Теперь, если вы положите очень тяжелый вес или сместите вес слишком сильно, вы начнете видеть отклонения: при достаточно больших смещениях движение будет казаться отклоненным от линейной модели. Таким образом, у вас может возникнуть соблазн удалить выбросы, чтобы улучшить линейную модель. Это не будет хорошей идеей, потому что модель работает не очень хорошо, поскольку закон Гука только приблизительно верен.ΔИкс

ОБНОВЛЕНИЕ В вашем случае я бы предложил потянуть эти точки данных и посмотреть на них поближе. Может ли это быть поломка лабораторного прибора? Внешние помехи? Дефект образца? и т.п.

Затем попытайтесь определить, можно ли связать присутствие этих выбросов с тем, что вы измеряете, как в приведенном мной примере. Если есть корреляция, то нет простого способа обойти это. Если нет корреляции, вы можете удалить выбросы


2
It is always a cheating to remove outliers to improve a regression model. Считаете ли вы сплайновую регрессию обманом ? FWIW, он делает наблюдения с пониженным весом, чтобы улучшить [локальную] регрессионную модель ~
user603

1
Я бы не согласился: «Это всегда обман, чтобы убрать выбросы, чтобы улучшить регрессионную модель». Есть много инструментов для проведения регрессионной диагностики, и цель этого состоит в том, чтобы обнаружить и «удалить» выбросы и обновить модель.
Haitao Du

6
@ hxd1011 инструменты, такие как Grubbs, не должны автоматически удалять выбросы. Они только указывают, что может быть выброс, тогда вы решаете, действительно ли это выброс. Это очень опасный подход для улучшения диагностики подгонки путем автоматического удаления выбросов. Вы должны проанализировать их в каждом конкретном случае.
Аксакал

2
Хорошо, я понимаю. Мой оригинальный язык был слишком жестким. Я отредактировал вступительное предложение. Спасибо за отзыв для комментаторов
Аксакал

1
@renakre, если вы не думаете, что это выбросы, не удаляйте наблюдения. Тем не менее, вам может потребоваться учесть меру достоверности прогноза, а не квадратную ошибку. Например, если эти экземпляры не так важны для вас, то, возможно, вам не нужно взвешивать их в квадрате, а вместо этого использовать абсолютное отклонение и т. Д. Мера должна отражать важность ошибки прогноза, например, потери в долларах на каждую ошибку прогноза. , Кроме того , тот факт , что эти счетчики автоматически не означает , что нет никаких ошибок инструментов, плагинов веб - страниц, подсчет количества кликов может не
Аксакал

4

Первоначально я хотел опубликовать это как комментарий к другому ответу, но это слишком долго, чтобы соответствовать.

Когда я смотрю на вашу модель, она не обязательно содержит одну большую группу и несколько выбросов. На мой взгляд, он содержит 1 группу среднего размера (от 1 до -1), а затем 6 небольших групп, каждая из которых находится между 2 целыми числами. Вы можете довольно четко видеть, что при достижении целого числа наблюдений на этих частотах становится меньше. Единственная особая точка - 0, где на самом деле не наблюдается заметного снижения наблюдений.

На мой взгляд, стоит рассмотреть, почему этот дистрибутив распространяется так:

  • Почему в распределении количество наблюдений падает на целые числа?
  • почему это снижение количества наблюдений не происходит при 0?
  • Что такого особенного в этих выбросах, что они являются выбросами?

Измеряя отдельные человеческие действия, вы всегда будете иметь выбросы. Может быть интересно узнать, почему эти выбросы не соответствуют вашей модели, и как их можно использовать для улучшения будущих итераций вашей модели.


+1. Разрыв между целыми числами, кажется, не всегда является правильным для целых чисел, так что, возможно, многие из нас видят шаблон, который не существует, но это может быть артефакт сбора данных, кодирования или дискретизации, который может пролить свет на данных в целом. Может даже быть разрыв в 0, который скрыт большим количеством перекрывающихся и, возможно, дрожащих точек. Определенно стоит вернуться к источнику, чтобы увидеть, соответствуют ли данные тем, что мы думаем.
Уэйн

2

Есть плюсы и минусы в удалении выбросов и построении модели только для «нормального паттерна».

  • Плюсы: производительность модели лучше. Интуиция заключается в том, что очень сложно использовать ОДНУ модель для захвата как «нормального шаблона», так и «внешнего шаблона». Таким образом, мы удаляем выбросы и говорим, что строим модель только для «нормального паттерна».

  • Минусы: мы не сможем предсказать выбросы. Другими словами, предположим, что мы запустим нашу модель в производство, из этой модели будут некоторые пропущенные прогнозы.

Я бы предложил удалить выбросы и построить модель, и, если возможно, попытаться построить отдельную модель только для выбросов.

Что касается слова «обман», если вы пишете бумагу и явно указываете, как вы определяете и удаляете выбросы, и упомянутое повышение производительности относится только к чистым данным. Это не обман.


3
Я не против того, чтобы меня понизили, но кто-то может сказать мне причину?
Haitao Du

Я проголосовал :) Вы также думаете, что это хорошая идея, чтобы удалить выбросы, а затем пересчитать данные для дальнейшего тестирования модели прогнозирования?
Renakre

1
@renakre Я бы посоветовал вам подумать о том, что делать в производстве. Скажем, если вы обнаружили, что выброс составляет всего 1%, и это нормально, если вы не производите продукцию в производстве. Тогда просто удали их. Если вы обнаружили, что выброс составляет 30%, и не стоит пропускать прогнозы в производстве. Затем попробуйте создать для него отдельную модель.
Haitao Du

В основном мы проверяем, можем ли мы предсказать некоторую переменную результата. Означает ли if it is fine to produce no output in productionэто то же самое? Итак, если мы начнем использовать нашу модель в реальном приложении, чтобы протестировать переменную результата и использовать прогнозируемую оценку в приложении, то было бы неправильно удалить выбросы (особенно, если их много, как вы упомянули)? Это то, что вы имели в виду?
Renakre

1
@renakre Ты мертв! Это то, что мы недавно сделали с AITOBOX, где пределы прогноза основаны не только на весах psi, но и на повторных выборках ошибок, заполненных выбросами. Это делается не только для моделей ARIMA, но и для причинно-следственных моделей, в которых неопределенность в предикторах также учитывается аналогичным образом.
IrishStat

2

Я считаю, что разумно удалять выбросы только тогда, когда для этого есть веская качественная причина. Под этим я подразумеваю, что имеется информация о том, что другая переменная, которой нет в модели, влияет на выбросы наблюдений. Затем можно удалить выброс или добавить дополнительные переменные.

Я обнаружил, что, когда у меня есть наблюдения выбросов в моем наборе данных, изучая, чтобы определить, почему существует выброс, я узнаю больше о моих данных и возможных других моделях, которые следует рассмотреть.


1
Добро пожаловать в stats.SE! Пожалуйста, найдите время, чтобы посмотреть наш тур . Было бы полезно, если бы вы расширили свой ответ, чтобы более полно ответить на вопрос (например, определение выброса на основе графического графика, влияние этого метода на модель прогнозирования и т. Д.).
Таврок

2

Я даже не уверен, что они являются "выбросами". Возможно, вы захотите сделать нормальный график вероятности. Являются ли они данными или остатками от подбора модели?


они представляют собой разницу между прогнозируемыми и реальными значениями.
Renakre
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.