Является ли 100% точность модели при превышении данных вне выборки?

Я только что закончил курс машинного обучения для R на cognitiveclass.ai и начал экспериментировать со случайными лесами.

Я сделал модель, используя библиотеку randomForest из R. Модель классифицируется по двум классам: хороший и плохой.

Я знаю, что, когда модель переоснащена, она хорошо работает на данных из своего собственного набора обучения, но плохо на данных вне выборки.

Для обучения и тестирования моей модели я перетасовал и разделил весь набор данных на 70% для обучения и 30% для тестирования.

Мой вопрос: я получаю 100% точность прогноза, сделанного на тестовом наборе. Это плохо? Это кажется слишком хорошим, чтобы быть правдой.

Целью является распознавание формы волны на четырех на друг друга в зависимости от формы волны. Особенностями набора данных являются стоимостные результаты анализа сигналов динамического коробления во времени с их целевым сигналом.

r random-forest prediction overfitting

— Милан ван Дейк
источник

добро пожаловать на сайт! Вы пытались предсказать некоторые данные шума?

— Торос91

Каждый раз, когда вы переставляете, тренируетесь и тестируете, точность составляет 100%?

— Алекс

@ Алекс Не совсем, но он остается очень высоким, как 98,55%

— Милан ван Дейк

@ Алекс 11,35% "хорошо" и 88,65% "плохо"

— Милан ван Дейк

Это довольно несбалансированно. Попробуйте использовать повторную выборку (повторную выборку), чтобы склонить баланс в обучающем наборе к классу ОК (например, сделайте это 30%) и сохранить соотношение 11/89 в наборах тестирования / проверки. Что вы получаете?

— Алекс

Ответы:

Высокие баллы проверки, такие как точность, обычно означают, что вы не перегружаете себя, однако это должно привести к осторожности и может указывать на что-то пошло не так Это также может означать, что проблема не слишком сложна и что ваша модель действительно работает хорошо. Две вещи, которые могут пойти не так:

Вы не разбили данные должным образом, и данные проверки также появились в ваших данных обучения, что означает, что это указывает на переобучение, потому что вы больше не измеряете обобщение
Вы используете некоторую разработку функций для создания дополнительных функций, и, возможно, вы ввели некоторую утечку цели, когда ваши строки используют информацию из своей текущей цели, а не только от других в вашем обучающем наборе

— Ян ван дер Вегт
источник

Точность 100% всегда выдает «утечку цели».

— Пол

Изучите, каковы ваши самые предсказательные особенности. Иногда вы случайно включили вашу цель (или что-то, что эквивалентно вашей цели) среди ваших функций.

— Том
источник