Почему минимизация MAE приводит к прогнозированию медианы, а не среднего значения?


20

Из учебника « Прогнозирование: принципы и практика » Роба Хиндмана и Джорджа Афанасопулоса , в частности, раздел об измерении точности :

Прогнозный метод, который минимизирует MAE, приведет к прогнозам медианы, а минимизация RMSE приведет к прогнозам среднего значения.

Может ли кто-то дать интуитивное объяснение того, почему минимизация MAE приводит к прогнозированию медианы, а не среднего значения? И что это означает на практике?

Я спросил клиента: «Что для вас важнее сделать средние прогнозы более точными или избежать очень неточных прогнозов?». Он сказал, что более точные прогнозы имеют более высокий приоритет. Итак, в этом случае я должен использовать MAE или RMSE? До того, как я прочитал эту цитату, я верил, что MAE будет лучше для такого состояния. И теперь я сомневаюсь.

Ответы:


17

Полезно сделать шаг назад и на минуту забыть об аспекте прогнозирования. Давайте рассмотрим просто любое распределение и предположим, что мы хотим суммировать его, используя одно число.F

Вы изучаете очень рано в ваших классах статистики, которые используют ожиданиеF в качестве единого числа сводит к минимуму ожидаемую квадратичную ошибку.

Вопрос теперь: почему с помощью медианы из минимизировать ожидаемую абсолютную ошибку?F

Для этого я часто рекомендую «Визуализация медианы как местоположения с минимальным отклонением» от Hanley et al. (2001, Американский статистик ) . Они создали небольшой апплет вместе со своей бумагой, которая, к сожалению, вероятно, больше не работает с современными браузерами, но мы можем следовать логике в статье.

Предположим, вы стоите перед банком лифтов. Они могут быть расположены на одинаковом расстоянии, или некоторые расстояния между дверями лифта могут быть больше, чем другие (например, некоторые лифты могут не работать). Перед каким лифтом вы должны стоять, чтобы иметь минимальную ожидаемую прогулку, когда один из лифтов делает прибыть? Обратите внимание, что эта ожидаемая прогулка играет роль ожидаемой абсолютной ошибки!

Предположим, у вас есть три лифта A, B и C.

  • Если вы ждете перед A, вам может потребоваться пройти от A до B (если B прибывает), или от A до C (если C прибывает) - прохождение B!
  • Если вы ждете перед B, вам нужно пройти от B к A (если A прибывает) или от B к C (если C прибывает).
  • Если вы ждете перед C, вам нужно пройти от C до A (если A прибывает) - проходя B - или от C до B (если B прибывает).

Обратите внимание, что от первой и последней позиции ожидания есть расстояние - AB в первой, BC в последней позиции - вам нужно пройти несколько раз. случаях прибытия лифтов. Поэтому вам лучше всего стоять прямо перед средним лифтом - независимо от того, как расположены три лифта.

Вот рисунок 1 от Hanley et al .:

Ханли и др., Рисунок 1

Это легко обобщает более трех лифтов. Или к лифтам с разными шансами прибыть первыми. Или действительно к бесконечно большому количеству лифтов. Таким образом, мы можем применить эту логику ко всем дискретным распределениям, а затем перейти к пределу для получения непрерывных распределений.

F^

F^λпер2

Таким образом, если вы подозреваете, что ваше прогнозное распределение является (или должно быть) асимметричным, как в двух вышеупомянутых случаях, тогда, если вы хотите получить непредвзятые прогнозы ожидания, используйте команду . Если распределение можно считать симметричным (как правило, для серий с большими объемами), то медиана и среднее значение совпадают, и использование также приведет вас к непредвзятым прогнозам - и MAE легче понять.

Точно так же минимизация может привести к смещенным прогнозам, даже для симметричных распределений. Этот мой предыдущий ответ содержит смоделированный пример с асимметрично распределенными строго положительными (логнормально распределенными) рядами, которые могут быть целенаправленно спрогнозированы с использованием трех разных точечных прогнозов, в зависимости от того, хотим ли мы минимизировать MSE, MAE или MAPE.


9

Ответ Стефана дает интуитивное объяснение того, почему минимизация абсолютной средней ошибки дает вам медиану. Теперь, чтобы ответить, какой из MSE, MAE или MAPE использовать:

MAE является надежным , что означает, что он менее чувствителен к выбросам. Представьте себе серию с ошибкой в ​​миллион раз большей, чем нужно. На MSE, это будет тянуть прогноз в миллион / N раз (где N - количество точек), в то время как MAE будет тянуть только за 1 единицу.

К сожалению, MAE не уникален , поэтому он может демонстрировать какое-то шизофреническое поведение.

Поэтому я рекомендую сначала создать MSE, а затем использовать параметры MSE для запуска регрессии MAE.

В любом случае сравните оба прогноза: если они очень разные, то в ваших данных есть что-то вонючее.

введите описание изображения здесьвведите описание изображения здесь

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.