Традиционно мы используем смешанную модель для моделирования продольных данных, то есть таких данных, как:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
мы можем предположить случайный перехват или наклон для разных людей. Однако вопрос, который я пытаюсь решить, будет включать огромные наборы данных (миллионы людей, ежедневное наблюдение в течение 1 месяца, т.е. каждый человек будет иметь 30 наблюдений), в настоящее время я не знаю, есть ли пакеты, которые могут сделать этот уровень данных.
У меня есть доступ к spark / mahout, но они не предлагают смешанные модели, мой вопрос в том, могу ли я как-то изменить свои данные, чтобы я мог использовать RandomForest или SVM для моделирования этого набора данных?
Любая техника разработки функций, которую я могу использовать, чтобы она могла помочь RF / SVM учитывать автокорреляцию?
Большое спасибо!
Некоторые потенциальные методы, но я не мог позволить себе время, чтобы написать их в искру