Стратегия повышения может улучшить производительность вашей модели, поэтому стоит попробовать. Что касается инкрементного / онлайн-обучения, я не знаю ни одного пакета в R, который бы его реализовывал (другие, пожалуйста, исправьте меня, если я ошибаюсь). В Scikit Learn есть специальные классификаторы, которые допускают пошаговое обучение. Однако, если вы привязаны к использованию R, у вас может не быть иного выбора, кроме как написать собственную инкрементную модель. В любом случае, изучив внешние классификаторы Scikit Learn, вы сможете понять, с чего начать.
Еще одна деталь, о которой следует помнить, - это степень, в которой обновление модели в отношении одного ложного положительного или ложного отрицательного результата улучшит производительность модели. В сфере мошенничества, как правило, в тысячи-миллионы раз больше случаев не мошенничества, чем мошенничества. Поэтому важно попытаться научиться правильно распознавать каждый случай мошенничества, но обновление модели для одного случая мошенничества, скорее всего, не изменит модель значительно. Рассмотрим другие стратегии, чтобы заставить модель придавать большее значение случаям мошенничества.
Самый простой способ улучшить вашу контролируемую модель, основанную на обратной связи от исследователей-людей, состоит в том, чтобы построить отдельную модель из исправленных экземпляров (т. Е. Неправильно предсказанных случаев, которые были должным образом помечены). Затем вы могли бы получить две ваши модели «голосования» за классификацию будущих экземпляров путем агрегирования их прогнозируемого членства в классе. Например, ModelA может полагать, что Instance1 равен [Мошенничество: 0,65, Non-Fraud: 0,35], в то время как ModelB полагает, что Instance1 равен [Fraud: 0,47, Non-Fraud: 0,53]. Таким образом, прогнозирование ансамбля будет следующим: [Мошенничество: (0,65 + 0,47) /2=0,56, Без мошенничества: (0,35 + 0,53) /2=0,44].
Если ваша исходная модель работает лучше, чем случайность, то число экземпляров, которые она правильно классифицирует, будет больше, чем число неправильно классифицированных. Таким образом, вы не хотите приписывать модели одинаковый вес, если они обучены на непропорциональном количестве экземпляров. Есть два простых способа справиться с этим несоответствием: 1) подождать, пока вы накопите достаточно исправленных экземпляров, чтобы приблизительно равняться количеству, на котором обучалась исходная модель, или 2) назначить вес каждой модели на основе того, как модель работает на наборе проверки.