Зачем использовать определенную меру ошибки прогноза (например, MAD), а не другую (например, MSE)?

MAD = среднее абсолютное отклонение MSE = средняя квадратическая ошибка

Я видел предложения из разных мест о том, что MSE используется, несмотря на некоторые нежелательные качества (например, http://www.stat.nus.edu.sg/~staxyc/T12.pdf , где говорится на стр. 8). Обычно считается, что MAD является лучшим критерием, чем MSE. Однако математически MSE удобнее, чем MAD. ")

Есть ли что-то большее, чем это? Есть ли документ, в котором подробно анализируются ситуации, в которых различные методы измерения ошибки прогноза более / менее подходят? Мои поиски в Google ничего не показали.

Подобный вопрос был задан по адресу /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde , и пользователю было предложено пост на stats.stackexchange.com, но я не думаю, что они когда-либо делали.

— user1205901 - Восстановить Монику
источник

MAD - это, как правило, срединное абсолютное отклонение, а не среднее, нет?

— Брайан Д

@BrianD: в более широком статистическом сообществе вы правы. В более узком прогнозирующем сообществе «MAD» неизменно является «средним абсолютным отклонением», AKA MAE .

— Стефан Коласса

Ответы:

Чтобы решить, какую точечную погрешность использовать, нам нужно сделать шаг назад. Обратите внимание, что мы не знаем точно будущих результатов, и никогда не узнаем. Таким образом, будущий результат следует за распределением вероятностей . Некоторые методы прогнозирования явно выдают такое полное распределение, а некоторые нет - но оно всегда есть, хотя бы неявно.

Теперь мы хотим получить хорошую погрешность для точечного прогноза . Такой точечный прогноз $F_t$ является нашей попыткой обобщить то, что мы знаем о будущем распределении (т. Е. Прогнозном распределении) во времени $t$ используя одно число, так называемыйфункционалбудущей плотности. Мера ошибки, таким образом, является способом оценки качества этого краткого резюме.

Таким образом, вы должны выбрать меру ошибки, которая вознаграждает «хорошие» итоговые значения (неизвестные, возможно прогнозируемые, но, возможно, только неявные) будущих плотностей.

Проблема заключается в том, что разные показатели ошибок минимизируются разными функционалами. Ожидаемая MSE сводится к минимуму ожидаемым значением будущего распределения. Ожидаемое MAD минимизируется медианой будущего распределения. Таким образом, если вы откалибруете свои прогнозы, чтобы минимизировать MAE, ваш точечный прогноз будет будущей медианой, а не будущим ожидаемым значением, и ваши прогнозы будут смещены, если ваше будущее распределение не будет симметричным.

Это наиболее актуально для данных подсчета, которые обычно искажены. В крайних случаях (скажем, распределение Пуассона распределяется со средним значением $\log 2\approx 0.69$ ), ваш MAE будет наименьшим для прогноза с плоским нулем. Смотрите здесь или здесь или здесь для деталей.

Я даю дополнительную информацию и иллюстрацию в разделе «Каковы недостатки ошибки среднего абсолютного процента (MAPE)»?Этот поток рассматривает mape , но также и другие меры ошибки, и он содержит ссылки на другие связанные потоки.

В конце концов, какой показатель ошибки использовать, зависит от вашей стоимости ошибки прогноза, т. Е. Какой тип ошибки является наиболее болезненным. Не смотря на реальные последствия ошибок прогноза, любое обсуждение «лучших критериев» в принципе бессмысленно.

Меры точности прогноза были большой темой в сообществе прогнозистов несколько лет назад, и они все еще появляются время от времени. Одна очень хорошая статья - Hyndman & Koehler «Другой взгляд на показатели точности прогноза» (2006).

Наконец, одна альтернатива состоит в том, чтобы рассчитать полные прогностические плотности и оценить их, используя надлежащие правила подсчета .

— Стефан Коласса
источник

Спасибо за ответ и ссылку. Я не был знаком с термином «Стоимость прогноза ошибки». Кажется, что это относится к ситуациям, когда (например) бизнес прогнозирует, сколько виджетов он продаст, и, возможно, боль, которую они испытывают при переоценке, вдвое больше, чем боль, которую они испытывают при недооценке. Тем не менее, я в основном думаю о контексте, в котором непрофессионалы делают прогнозы без очевидной стоимости ошибки прогноза (например, «Сколько твитов сделает Билл Гейтс в следующие 5 месяцев?»). В такой ситуации мой выбор меры ошибки будет произвольным?

— user1205901 - Восстановить Монику

Цена ошибки прогноза обсуждалась в практическом журнале Foresight : forecasters.org/foresight Очень рекомендуется! (Полное раскрытие: я помощник редактора.) Я согласен с тем, что CoFE не совсем очевиден в вашем примере, но тогда мне хотелось бы знать, сколько усилий вы действительно должны потратить на оптимизацию показателя ошибок ...

— Стефан Коласса

Преимущества использования MAE вместо MSE объясняются в Davydenko and Fildes (2016) , см. Раздел 3.1:

... Некоторые авторы (например, Zellner, 1986) утверждают, что критерий, по которому мы оцениваем прогнозы, должен соответствовать критерию, по которому мы оптимизируем прогнозы. Другими словами, если мы оптимизируем оценки с использованием некоторой заданной функции потерь, мы должны использовать ту же функцию потерь для эмпирической оценки, чтобы выяснить, какая модель лучше.

Подгонка статистической модели обычно дает оптимальные прогнозы при квадратичных потерях. Это, например, происходит, когда мы подгоняем линейную регрессию. Если наш прогноз плотности из статистического моделирования симметричен, то прогнозы, оптимальные при квадратичных потерях, также оптимальны при линейных потерях. Но если мы стабилизируем дисперсию с помощью лог-преобразований, а затем преобразуем обратно прогнозы путем возведения в степень, мы получаем прогнозы, оптимальные только при линейных потерях. Если мы используем другую потерю, мы должны сначала получить прогноз плотности с использованием статистической модели, а затем скорректировать нашу оценку с учетом нашей конкретной функции потерь (см. Примеры выполнения этого в Goodwin, 2000).

Давайте предположим, что мы хотим эмпирически сравнить два метода и выяснить, какой метод лучше с точки зрения симметричных линейных потерь (поскольку этот тип потерь обычно используется в моделировании). Если у нас есть только один временной ряд, кажется естественным использовать среднюю абсолютную ошибку (MAE). Кроме того, MAE привлекателен, так как его легко понять и рассчитать (Hyndman, 2006) ...

Ссылки

Давыденко А., & Филдес Р. (2016). Оценка ошибок прогноза: критический обзор и практические рекомендации. В прогнозировании бизнеса: практические проблемы и решения. Джон Вили и сыновья

— TurboFly
источник

Не могли бы вы дать полную ссылку на статью, а не просто «Давыденко и Филдес, 2016»?

— Серебряная

Мы хотели бы, чтобы наши ответы были автономными, чтобы ссылки не пострадали. Как вы думаете, вы могли бы немного расширить свой ответ, чтобы обобщить то, что, по вашему мнению, было ключевыми моментами его содержания, которые имеют отношение к этому вопросу? В противном случае это действительно больше подходит для комментария, чем для ответа. (Я ценю, что у вас недостаточно репутации, чтобы оставлять комментарии, но мы можем преобразовать ее в один для вас.)

— Silverfish,

Спасибо за ответ! Вот что говорит Давиденко и Филдес, 2016: Подгонка статистической модели обычно дает оптимальные прогнозы при квадратичных потерях. Это, например, происходит, когда мы подгоняем линейную регрессию. Если наш прогноз плотности из статистического моделирования симметричен, то прогнозы, оптимальные при квадратичных потерях, также оптимальны при линейных потерях. Но если мы стабилизируем дисперсию с помощью лог-преобразований, а затем преобразуем обратно прогнозы путем возведения в степень, мы получаем прогнозы, оптимальные только при линейных потерях.

— Turbofly

Благодарность! Вы можете отредактировать эту информацию в своем ответе (кнопка «Изменить» находится внизу вашего сообщения).

— Серебряная

Большое спасибо. Я сделал некоторое форматирование и дал полную цитату.

— Серебряная

$RMSE = \sqrt{MSE}$ $MAE = MAD$

Фактически,

$MAE \leq RMSE \leq \sqrt{n} MAE$

$e$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n e^2} = e = MAE$
$e$
$MAE = \frac{e}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} e^2} = \sqrt{\frac{1}{n} (n MAE)^2} = \sqrt{n} MAE$

$MAE \leq RMSE \leq \sqrt{MAE}$ $y_i$ $\hat y_i$ $\in [0, 1]$

$e_i$ $\leq 1$
$MAE = \frac{n_{wrong}}{n}$
$RMSE = \sqrt{\frac{1}{n} \sum e_i^2} = \sqrt{\frac{1}{n} n_{wrong}} = \sqrt{MAE}$
$n_{wrong}$ , если вы идете на частичное / дробное членство в классе и, следовательно, также для $e_i \in [0, 1]$ все становится немного сложнее, потому что вы должны принять во внимание, что максимально возможная ошибка может быть меньше 1, и у вас может быть «остаток» $e_i < 1$ которые оба понижают верхнюю границу немного дальше.)

Если RMSE близка к MAE, у вас много небольших отклонений, если она близка к своей верхней границе, есть несколько крайне неправильных предсказаний.

— cbeleites поддерживает Монику
источник

do you mean sqrt(n)*MAE or sqrt(n*MAE) as an upper bound?

— Chris

@Chris: it is sqrt (n) * MAE, see my edit.

— cbeleites supports Monica