Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе.
Моя экспериментальная установка выглядит следующим образом:
- Набор данных: 50 здоровых контрольных пациентов и 50 больных (около 200 признаков, которые могут иметь отношение к прогнозированию заболевания).
- Задача - диагностировать заболевание на основе доступных функций.
Что я делаю
- Возьмите весь набор данных и выполните выбор объекта (FS). Я сохраняю только выбранные функции для дальнейшей обработки
- Разделите для тестирования и обучения, обучите классификатор, используя данные поезда и выбранные функции. Затем примените классификатор для проверки данных (снова используя только выбранные функции). Проверка по принципу «один-один-выход» используется.
- получить точность классификации
- Усреднение: повторите 1) -3) N раз. (100).
Я бы согласился, что выполнение FS для всего набора данных может привести к некоторому смещению, но я считаю, что оно «усредняется» во время усреднения (шаг 4). Это верно? (Точность отклонения )
1 Гайон, И. (2003) «Введение в переменную и выбор функций», Журнал исследований машинного обучения, Vol. 3, с. 1157-1182
2 Сингхи, С. К. и Лю, Х. (2006) «Смещение выбора подмножества функций для обучения по классификации», Материалы ICML '06 Материалы 23-й международной конференции по машинному обучению, с. 849-856