Я пытаюсь делать прогнозы, используя модель случайного леса в R.
Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2
имеет значения 34, 68, 76
и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не могу контролировать набор тестов ... Я должен использовать его как есть.
Моим единственным обходным решением было преобразование проблемных факторов обратно в числовые значения, используя as.numeric()
. Это работает, но я не очень доволен, так как эти значения являются кодами, которые не имеют числового смысла ...
Как вы думаете, было бы другое решение, чтобы сбросить новые значения из тестового набора? Но без удаления всех других значений факторов (скажем, значений 1, 2, 14, 32
и т. Д.), Которые используются как для обучения, так и для тестирования, и содержат информацию, потенциально полезную для прогнозов.