Я обучаю классификационную модель случайному лесу, чтобы различать 6 категорий. Мои транзакционные данные имеют около 60 тыс. Наблюдений и 35 переменных. Вот пример того, как это выглядит примерно.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
После того, как модель будет создана, я хотел бы оценить наблюдения за последние несколько недель. Поскольку в системе произошли изменения, более поздние наблюдения будут более близко напоминать среду текущих наблюдений, которые я хотел бы предсказать. Поэтому я хочу создать весовую переменную, чтобы случайный лес придавал больше значения последним наблюдениям.
Кто-нибудь знает, способен ли пакет randomForest в R обрабатывать веса для одного наблюдения?
Кроме того, не могли бы вы предложить, какой хороший метод для создания переменной веса? Например, поскольку мои данные за 2013 год, я подумал, что могу взять номер месяца из даты в качестве веса. Кто-нибудь видит проблему с этим методом?
Спасибо заранее!