Пророк из Facebook отличается от линейной регрессии?


11

Итак, что я прочитал о пророке Facebook, так это то, что он в основном разбивает временные ряды на тренды и сезонность. Например, аддитивная модель будет записана как:

Y(T)знак равног(T)+s(T)+час(T)+еT

с

  • T время
  • г(T) тренд (может быть линейным или логистическим)
  • s(T) сезонность (ежедневно, еженедельно, ежегодно ...)
  • час(T) праздники
  • еT ошибка

Мои вопросы: не может ли это быть сделано с помощью простой линейной регрессии? Каковы будут различия в результатах, если мы сравним их и почему?


Да, вы можете сделать это с помощью линейной модели. Я не знаю Пророка, но если это все, что он делает, то нет никакой разницы.
user2974951

Ответы:


13

Проблема здесь заключается в том, чтобы получить уравнение, которое анализирует наблюдаемые данные по сигналу и шуму. Если ваши данные просты, то ваш регрессионный подход может сработать. Следует позаботиться о том, чтобы понять некоторые из предположений, которые они делают с Пророком. Вы должны лучше понять, что делает Пророк, поскольку он не просто подходит для простой модели, но пытается добавить некоторую структуру.

Например, некоторые размышления, которые я сделал после прочтения их хорошо написанного вступления, могут помочь вам в вашей оценке. Я заранее прошу прощения, если я неправильно понял их подход, и хотел бы быть исправлен, если так.

1) Их основной пример имеет две точки перелома в тренде, но они захватили только наиболее очевидную.

2) Они игнорируют любую и всю структуру ARIMA, отражающую пропущенные стохастические ряды или ценность использования исторических значений Y для руководства прогнозом.

3) Они игнорируют любую возможную динамику (опережающие и запаздывающие эффекты) предложенных пользователем стохастических и детерминированных рядов. Причинно-следственные эффекты пророка просто современны.

4) Не предпринимается попытка идентифицировать сдвиги ступеней / уровней в последовательных или сезонных импульсах, например, изменение ПОЛНЕЧНОГО ЭФФЕКТА на полпути во времени из-за какого-то неизвестного внешнего события. Prophet предполагает «простой линейный рост», а не проверку его путем изучения альтернативных возможностей. Возможный пример этого см. В разделе « Прогнозирование повторяющихся заказов для бизнеса онлайн-подписки с использованием Facebook Prophet и R».

5) Синусы и косинусы являются непрозрачным способом борьбы с сезонностью, в то время как сезонные эффекты, такие как день недели, день месяца, неделя месяца, месяц года гораздо более эффективный / информативный, когда имеешь дело с антропогенными (имея дело с людьми!) эффектами.

Предлагать частоты 365,25 для годовых моделей не имеет смысла, потому что мы не выполняем то же самое действие в тот же день, что и в прошлом году, в то время как ежемесячная активность гораздо более постоянна, но Пророк не предлагает 11 месячных показателей. вариант. Еженедельные частоты 52 имеют мало смысла, потому что у нас нет 52 недель в каждый год.

6) Не делается никаких попыток проверить процессы ошибок, являющиеся гауссовскими, поэтому можно провести значимые тесты значимости.

7) Не нужно беспокоиться о том, чтобы дисперсия ошибки модели была однородной, т.е. не изменялась детерминистически в определенные моменты времени, предлагая взвешенные наименьшие квадраты. Не беспокойтесь о том, чтобы найти оптимальное силовое преобразование для пропорционального отклонения ошибки от ожидаемого значения. Когда (и почему) следует вести журнал распределения (чисел)? ,

8) Пользователь должен предварительно указать все возможные эффекты опережения и задержки вокруг событий / праздников. Например, ежедневные продажи часто начинают увеличиваться в конце ноября, отражая долгосрочный эффект Рождества.

9) Не беспокойтесь о том, что возникающие ошибки не имеют структуры, предлагая способы улучшения модели посредством диагностической проверки достаточности.

10) По-видимому, нет необходимости улучшать модель путем удаления несущественной структуры.

11) Нет возможности получить семейство смоделированных прогнозов, в которых доверительные пределы необязательно могут быть симметричными путем начальной загрузки ошибок модели с учетом возможных аномалий.

12) Предоставление пользователю возможности делать предположения о тенденциях (количество точек останова и фактических точек останова) обеспечивает нежелательную / непригодную гибкость в условиях крупномасштабного анализа, который по своему названию предназначен для крупномасштабных приложений без помощи рук.


Согласитесь, но я бы сказал, что эти вещи ближе к функциям «приятно иметь», а затем «должны иметь». У вас могут быть высококачественные модели прогнозирования, в которых отсутствуют некоторые из них. Но, как я уже сказал, хорошие моменты и хороший обзор.
Тим

Вы совершенно правы в своих размышлениях. Присущая сложность «данных» является основной проблемой. Простые данные ... нужны простые решения ... сложные данные говорят о том, что "приятно иметь" может стать "нужно иметь". Только ваши данные знают наверняка! Бритва Оккама приходит на ум ..
IrishStat

@Tim stats.stackexchange.com/questions/417908/… поток предлагает, чтобы некоторые функции, которые "приятно иметь", в действительности были "должны иметь", чтобы помешать ошибочным предположениям, таким как "простой линейный тренд".
IrishStat

10

Я не использовал это, но это резюме их препринта (выделение мое):

Прогнозирование - это распространенная задача в области науки о данных, которая помогает организациям планировать мощности, устанавливать цели и обнаруживать аномалии. Несмотря на свою важность, существуют серьезные проблемы, связанные с созданием надежных и высококачественных прогнозов, особенно когда существует множество временных рядов, а аналитики с опытом в моделировании временных рядов относительно редки . Чтобы решить эти проблемы, мы описываем практический подход к прогнозированию «в масштабе», который сочетает в себе конфигурируемые модели с анализом производительности аналитик в цикле, Мы предлагаем модульную регрессионную модель с интерпретируемыми параметрами, которые могут быть интуитивно настроены аналитиками, обладающими знаниями в области временных рядов. Мы описываем анализ производительности для сравнения и оценки процедур прогнозирования и автоматически помечаем прогнозы для ручного просмотра и корректировки. Инструменты, которые помогают аналитикам наиболее эффективно использовать свой опыт, позволяют надежно и практично прогнозировать временные ряды бизнеса.

Во введении:

Мы наблюдали две основные темы в практике создания бизнес-прогнозов. Во-первых, полностью автоматизированные методы прогнозирования могут быть сложными в настройке и зачастую слишком негибкими, чтобы включать полезные предположения или эвристику. Во-вторых, аналитики, отвечающие за задачи по науке о данных во всей организации, обычно имеют глубокие знания в области конкретных продуктов или услуг, которые они поддерживают, но часто не проходят подготовку по прогнозированию временных рядов.

Таким образом, мне кажется, что они не утверждают, что сделали существенный статистический прогресс здесь (хотя он способен гораздо больше, чем простая модель, которую вы наметили). Вместо этого они утверждают, что их система делает возможным для большого числа людей, не имеющих опыта в анализе временных рядов, генерировать прогнозы, применяя свои собственные знания в области и специфические для системы ограничения.

Если у вас уже есть опыт как в анализе временных рядов, так и в кодировании сложных моделей, это может быть не очень полезно для вас. Но если их заявления верны, это может быть чрезвычайно полезно! Наука (и коммерция) развиваются не только благодаря новым идеям, но и благодаря новым инструментам и их распространению (см. Эту короткую статью Фримена Дайсона на эту тему и этот ответ ).

Возьмем пример из самой статистики: Rон не представлял статистический прогресс, но он оказал огромное влияние, поскольку он позволил гораздо большему количеству людей проводить статистический анализ. Это были леса, на которых было построено большое статистическое понимание. Если нам повезет, Пророк может сыграть аналогичную роль.

Дайсон, Фримен Дж. "Наука в основном движет идеями или инструментами?" Наука 338, нет. 6113 (2012): 1426-1427.


0

Вам не хватает точек изменения, кусочно-линейных сплайнов, которые могут быть реализованы в линейных моделях.

Вы правы, что по крайней мере в предельном случае это линейная регуляризованная регрессия (регуляризация L1 и L2).

Обратите внимание, что есть отдельная модель пророка, логистический рост.

Также вы предполагаете, что сезонные факторы являются аддитивными, но они также поддерживают мультипликативные сезонные эффекты, что кажется более естественным, по крайней мере, для моделирования роста.


Предположение Пророка о том, чтобы брать журналы, бросает вызов этому ценному обсуждению ... stats.stackexchange.com/questions/18844/… где силовые преобразования оправданы на основе эмпирической зависимости между ожидаемым значением и дисперсией ошибки модели ИЛИ конкретной нелинейная презумпция основана на предметной области.
IrishStat

@IrishStat Спасибо за этот момент (я забыл, что они преобразовывают журналы для реализации мультипликативной сезонности, они используют STAN, поэтому я считаю, что они могли бы использовать нелинейную модель вместо журналов). Можете ли вы объяснить свое различие между предположением о мультипликативной сезонности и «нелинейной презумпцией»?
seanv507

Если вы посмотрите на ответ @ whuber stats.stackexchange.com/questions/298/… он предлагает преобразование «когда указывает научная теория», что будет возможным нелинейным предположением, основанным на знании предметной области. Эмпирические преобразования Силы полезны, когда обнаружено, что дисперсия ошибок пропорциональна ожидаемому значению, в противном случае это может быть просто «оформление витрины».
IrishStat

0

Многое можно сделать с помощью простой линейной регрессии, но не всем, что делает Пророк. Только один пример, вы можете указать свой собственный кандидат на точку изменения для тренда, и Пророк будет использовать его как предыдущий.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.