прогнозируемость
Вы правы в том, что это вопрос прогнозируемости. Там было несколько статей о прогнозируемости в практикующей-ориентированный журнал IIF в Форсайт . (Полное раскрытие: я помощник редактора.)
Проблема в том, что прогнозируемость уже трудно оценить в «простых» случаях.
Несколько примеров
Предположим, у вас есть такие временные ряды, но вы не говорите по-немецки:
Как бы вы смоделировали большой пик в апреле и как бы вы включили эту информацию в любые прогнозы?
Если бы вы не знали, что этот временной ряд является продажей яиц в швейцарской сети супермаркетов, пик которой приходится на западный календарный день Пасхи , у вас не было бы шансов. Кроме того, с учетом того, что Пасха движется по календарю на целых шесть недель, любые прогнозы, которые не включают конкретную дату Пасхи (предполагая, скажем, что это был просто какой-то сезонный пик, повторятся на определенной неделе в следующем году) вероятно был бы очень выключен.
Аналогичным образом, предположим, что у вас есть синяя линия ниже, и вы хотите смоделировать то, что произошло 2010-02-28, настолько отличным от «нормальных» шаблонов 2010-02-27:
Опять же, не зная, что происходит, когда целый город, полный канадцев, смотрит по телевизору олимпийскую игру в финал по хоккею с шайбой, у вас нет ни малейшего шанса понять, что здесь произошло, и вы не сможете предсказать, когда что-то подобное повторится.
Наконец, посмотрите на это:
Это временной ряд ежедневных продаж в магазине наличных денег . (Справа у вас есть простая таблица: 282 дня имели нулевые продажи, 42 дня - 1 ... и один день - 500.) Я не знаю, что это за товар.
До сегодняшнего дня я не знаю, что произошло в тот день с продажами в 500. Я думаю, что некоторые клиенты предварительно заказали большое количество любого продукта и собрали его. Теперь, не зная этого, любой прогноз на этот конкретный день будет далеко. И наоборот, предположим, что это произошло прямо перед Пасхой, и у нас есть тупой умный алгоритм, который полагает, что это может быть эффектом Пасхи (может быть, это яйца?), И с радостью прогнозирует 500 единиц на следующую Пасху. Ой, может , что пойдет не так.
Резюме
Во всех случаях мы видим, как прогнозируемость может быть хорошо понята только тогда, когда у нас достаточно глубокое понимание вероятных факторов, которые влияют на наши данные. Проблема в том, что, если мы не знаем эти факторы, мы не знаем, что мы можем не знать их. Согласно Дональду Рамсфелду :
[T] здесь известны известные; Есть вещи, которые мы знаем, мы знаем. Мы также знаем, что есть известные неизвестные; то есть мы знаем, что есть некоторые вещи, которые мы не знаем. Но есть и неизвестные неизвестные - те, которых мы не знаем, мы не знаем.
Если Пасха или пристрастие канадцев к хоккею неизвестны нам, мы застряли - и у нас даже нет пути вперед, потому что мы не знаем, какие вопросы нам нужно задать.
Единственный способ справиться с этим - собрать знания о предметной области.
Выводы
Из этого я делаю три вывода:
- Вы всегда должны включать знание предметной области в свое моделирование и прогнозирование.
- Даже со знанием предметной области вы не гарантированно получите достаточно информации, чтобы ваши прогнозы и прогнозы были приемлемы для пользователя. Посмотрите на этот выброс выше.
- Если «ваши результаты печальны», вы можете надеяться на большее, чем можете достичь. Если вы прогнозируете справедливое подбрасывание монеты, то невозможно получить точность выше 50%. Также не доверяйте внешним оценкам точности прогноза.
Нижняя линия
Вот как я бы порекомендовал строить модели и замечать, когда нужно остановиться:
- Поговорите с кем-нибудь, обладающим знанием предметной области, если у вас его еще нет.
- Определите основные движущие силы данных, которые вы хотите прогнозировать, включая вероятные взаимодействия, на основе шага 1.
- Построение моделей итеративно, включая драйверы в порядке убывания прочности согласно шагу 2. Оцените модели, используя перекрестную проверку или выборочный образец.
- Если точность вашего прогноза больше не увеличивается, либо вернитесь к шагу 1 (например, выявив вопиющие неправильные прогнозы, которые вы не можете объяснить, и обсудив их с экспертом по предметной области), либо примите, что вы достигли конца своего возможности моделей. Тайм-бокс вашего анализа заранее помогает.
Обратите внимание, что я не рекомендую пробовать разные классы моделей, если ваши оригинальные модели плато. Как правило, если вы начали с разумной модели, использование чего-то более сложного не принесет существенной пользы и может просто привести к перегрузке тестового набора. Я видел это часто, и другие люди соглашаются .