Предположим, у меня чуть более 20 000 месячных временных рядов, охватывающих период с января 2005 года по декабрь 2011 года. Каждый из них представляет глобальные данные о продажах для другого продукта. Что, если вместо вычисления прогнозов для каждого из них я хотел бы сосредоточиться только на небольшом количестве продуктов, которые «действительно имеют значение»?
Я мог бы ранжировать эти продукты по общему годовому доходу и урезать список с помощью классического Парето. Тем не менее, мне кажется, что, хотя они не вносят большой вклад в практический результат, некоторые продукты настолько легко предсказать, что их исключение будет плохим суждением. Продукт, который продавался по 50 долларов в месяц в течение последних 10 лет, может показаться не таким уж большим, но для создания прогнозов о будущих продажах требуется так мало усилий, что я с таким же успехом могу это сделать.
Допустим, я делю свои продукты на четыре категории: высокий доход / легко прогнозируемый - низкий доход / легко прогнозируемый - высокий доход / трудно прогнозируемый - низкий доход / трудно прогнозируемый.
Я думаю, что было бы разумно оставить позади только те временные ряды, которые относятся к четвертой группе. Но как именно я могу оценить «прогнозируемость»?
Коэффициент вариации кажется хорошей отправной точкой (я также помню, как видел какую-то статью об этом некоторое время назад). Но что, если мои временные ряды показывают сезонность / сдвиги уровней / эффекты календаря / сильные тренды?
Я полагаю, что я должен основывать свою оценку только на изменчивости случайного компонента, а не на «необработанных» данных. Или я что-то упустил?
Кто-нибудь сталкивался с подобной проблемой раньше? Как бы вы, ребята, пошли на это?
Как всегда, любая помощь очень ценится!