В контексте прогнозирования удаление выбросов очень опасно. Например, вы прогнозируете продажи продуктового магазина. Допустим, в соседнем здании произошел взрыв газа, который заставил вас закрыть магазин на несколько дней. Это был единственный раз, когда магазин был закрыт за 10 лет. Итак, вы получаете временные ряды, обнаруживаете выбросы, удаляете его и прогнозируете. Вы молчаливо предполагали, что ничего подобного не произойдет в будущем. В практическом смысле вы сжимали наблюдаемую дисперсию, а коэффициент дисперсии уменьшался. Таким образом, если вы покажете полосы достоверности для своего прогноза, они будут уже, чем если бы вы не удалили выброс.
Конечно, вы можете сохранить выбросы и действовать как обычно, но это тоже не очень хороший подход. Причина в том, что этот выброс будет искажать коэффициенты.
Я думаю, что лучший подход в этом случае - учесть распределение ошибок с толстыми хвостами, возможно, стабильное распределение. В этом случае ваш выброс не будет слишком сильно искажать коэффициенты. Они будут близки к коэффициентам с удаленным выбросом. Тем не менее, выброс будет отображаться в распределении ошибок, дисперсия ошибок. По сути, вы получите более широкие границы достоверности прогноза.
Полосы доверия передают очень важную информацию. Если вы прогнозируете, что продажи в этом месяце составят 1 000 000 долларов , но есть вероятность 5%, что они составят 10 000 долларов, это влияет на ваши решения о расходах, управлении денежными средствами и т. Д.