Должен ли я перетасовать свои данные?


9

У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы успешно создали модель и применили ее на испытательном стенде, чтобы обнаружить, что производительность «ниже оптимальной». Теперь экспериментаторы хотят улучшить биологические тесты, чтобы создать лучшую модель. При условии, что мы не можем получить новые образцы, предложите ли вы нам переставить образцы для создания новых обучающих и проверочных наборов или придерживаться первоначального разделения. (У нас нет никаких признаков того, что разделение было проблематичным).


1
Как вы поделили данные? Случайно, вручную или каким-то другим способом? Хотя, по правде говоря, часть "успешно созданной модели" является НАМНОГО большей частью проблемы. Перед тем, как делать дорогостоящие вещи, вы должны выяснить, используете ли вы подходящий тип модели, превышаете ли вы данные о тренировках и есть ли у вас соответствующие данные для того, что вы пытаетесь предсказать.
Уэйн

Кстати, я забыл включить режим цинизма, прежде чем «успешно создал модель»
DavidDong

Ответы:


12

Поскольку вы уже используете несогласованный образец, я бы сказал, что вы должны сохранить его и построить свои новые модели на одном и том же обучающем образце, чтобы все модели учитывали одинаковые отношения между функциями. Кроме того, если вы выполняете выбор функции, образцы должны быть пропущены до любого из этих этапов фильтрации; то есть выбор функции должен быть включен в цикл перекрестной проверки.

Следует отметить, что для выбора модели существуют более мощные методы, чем разделение 0,67 / 0,33, а именно перекрестная проверка в k-кратном порядке или исключение из условия. См., Например, «Элементы статистического обучения» (§7.10, с. 241-248), www.modelselection.org или «Обзор процедур перекрестной проверки для выбора модели Арло и Селиссе» (требуется более сложный математический фон).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.