Ошибка «из сумки» делает резюме ненужным в случайных лесах?


15

Я довольно новичок в случайных лесах. В прошлом я всегда сравнивал точность подгонки к тесту с подгонкой к тренировке, чтобы обнаружить любое переоснащение. Но я только что прочитал здесь, что:

«В случайных лесах нет необходимости в перекрестной проверке или отдельном наборе тестов, чтобы получить объективную оценку ошибки набора тестов. Она оценивается внутри, во время прогона…»

Небольшой абзац выше можно найти в разделе « Оценка ошибок из пакета» . Эта концепция ошибки вне пакета совершенно нова для меня, и немного сбивает с толку то, как ошибка OOB в моей модели составляет 35% (или точность 65%), но, тем не менее, если я применяю перекрестную проверку к моим данным (простая задержка метод) и сравнить оба теста на соответствие и тест на соответствие, я получаю точность 65% и точность 96% соответственно. По моему опыту, это считается переоснащением, но OOB содержит ошибку 35%, так же как и моя ошибка сравнения с тестом . Я переоснащаюсь? Должен ли я даже использовать перекрестную проверку для проверки соответствия в случайных лесах?

Короче говоря, я не уверен, должен ли я доверять OOB, чтобы получить непредвзятую ошибку ошибки набора тестов, когда моя подгонка против поезда указывает, что я переоснащаюсь!


OOB можно использовать для определения гиперпараметров. Помимо этого, для меня, чтобы оценить производительность модели, следует использовать перекрестную проверку.
Метариат

@Matemattica, когда вы говорите о гиперпараметрах, что именно вы говорите? Извините за отсутствие знаний в теме
jgozal

количество деревьев и объектов, выбранных случайным образом на каждой
итерации

Я знаю, что это совершенно другой вопрос, но как определить количество деревьев и выборку функций на каждой итерации по ошибке?
августа

1
Может быть, это может помочь: stats.stackexchange.com/a/112052/78313 В общем, я никогда не видел такой разницы в РФ!
Метариат

Ответы:


21
  • Ошибка обучения (как в predict(model, data=train)), как правило, бесполезна. Если вы не выполняете (нестандартное) обрезание деревьев, оно не может быть намного выше 0 по алгоритму . Случайный лес использует начальную агрегацию деревьев решений, которые, как известно, плохо подходят. Это похоже на ошибку обучения для классификатора 1-ближайшего соседа.

  • 1е

    Таким образом, ошибка «вне пакета» не совсем такая же (меньше деревьев для агрегации, больше обучающих копий примеров) и ошибка перекрестной проверки, но для практических целей она достаточно близка.

  • Что бы иметь смысл иметь в виду, чтобы обнаружить переоснащение, это сравнение ошибки из пакета с внешней проверкой. Однако, если вы не знаете о кластеризации в ваших данных, «простая» ошибка перекрестной проверки будет склонна к тому же оптимистичному смещению, что и ошибка «из пакета»: расщепление выполняется в соответствии с очень похожими принципами.
    Вам нужно сравнить готовую или перекрестную проверку с ошибкой для хорошо спланированного тестового эксперимента, чтобы обнаружить это.


11

Ошибка «вне пакета» полезна и может заменить другие протоколы оценки производительности (например, перекрестную проверку), но должна использоваться с осторожностью.

Как и в случае перекрестной проверки, оценка эффективности с использованием выборок из пакета рассчитывается с использованием данных, которые не использовались для обучения. Если данные были обработаны способом, который передает информацию между выборками, оценка будет (вероятно) смещена. Простыми примерами, которые приходят на ум, являются выбор функции или вменение отсутствующего значения. В обоих случаях (и особенно для выбора признаков) данные преобразуются с использованием информации из всего набора данных, смещая оценку.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.