Google Trends возвращает еженедельные данные, поэтому мне нужно найти способ объединить их с моими ежедневными / ежемесячными данными.
Пока что я разбил каждую серию на ежедневные данные, например:
от:
2013-03-03 - 2013-03-09 37
чтобы:
2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37
Но это добавляет сложности моей проблеме. Я пытался предсказать результаты поиска в Google по значениям за последние 6 месяцев или по 6 значениям в ежемесячных данных. Ежедневные данные подразумевают работу на 180 прошлых значений. (У меня есть данные за 10 лет, поэтому 120 баллов в месячных данных / 500+ в еженедельных данных / 3500+ в ежедневных данных)
Другой подход заключается в «объединении» ежедневных данных в еженедельные / ежемесячные данные. Но некоторые вопросы возникают из этого процесса. Некоторые данные могут быть усреднены, потому что их сумма представляет что-то. Например, количество осадков за определенную неделю будет суммой сумм за каждый день, составляющий недели.
В моем случае я имею дело с ценами, финансовыми ставками и другими вещами. Для цен в моем поле принято учитывать объем обмена, поэтому еженедельные данные будут средневзвешенными. Для финансовых ставок это немного сложнее, некоторые формулы используются для построения еженедельных ставок из дневных ставок. Что касается других вещей, я не знаю основных свойств. Я думаю, что эти свойства важны, чтобы избежать бессмысленных показателей (например, среднее значение финансовых показателей было бы бессмысленным).
Итак, три вопроса:
Для известных и неизвестных свойств, как мне перейти от ежедневных к еженедельным / ежемесячным данным?
Я чувствую, что разбивать еженедельные / ежемесячные данные на ежедневные данные, как я сделал, несколько неправильно, потому что я ввожу количества, которые не имеют смысла в реальной жизни. Итак, почти тот же вопрос:
Для известных и неизвестных свойств, как мне перейти от еженедельных / ежемесячных к ежедневным данным?
И последнее, но не менее важное: что лучше для двух временных рядов с разными временными шагами: использовать самый низкий или самый большой временной шаг? Я думаю, что это компромисс между количеством данных и сложностью модели, но я не вижу убедительных аргументов в пользу выбора между этими вариантами.
Изменить: если вы знаете инструмент (в R Python и Excel), чтобы сделать это легко, было бы очень полезно.