Учебники для разработки функций


19

Как всем известно, разработка функций чрезвычайно важна для машинного обучения, однако я нашел немного материалов, связанных с этой областью. Я участвовал в нескольких соревнованиях в Kaggle и считаю, что в некоторых случаях хорошие характеристики могут быть даже важнее, чем хороший классификатор. Кто-нибудь знает какие-либо учебники по проектированию функций, или это чистый опыт?


1
Вы имеете в виду предварительную обработку объектов (нормализация и другие преобразования) или выбор объектов?
MattBagg

2
@ mb3041023 Нет, шаг перед обоими, в котором вы преобразуете некоторые необработанные данные, такие как тексты, изображения или серии, в некоторые используемые атрибуты.

8
По моему опыту, огромной частью проблемы машинного обучения является буквальная постановка правильной задачи, которая должна быть решена / оптимизирована (т.е. функции, представление функций, выбор и т. Д.). Я хотел бы видеть книгу, посвященную исключительно эмпирическому выбору и предварительной обработке, с множеством реальных иллюстраций (например, kaggle). Если кто-нибудь знает один, пожалуйста. Почта. Есть несколько книг, посвященных таким вещам, как очистка данных / вменение данных, но крайне необходим специальный практический текст по выбору функций.
погладить

2
Взгляните на: «Извлечение функций: фонды и приложения», 2006
jasonb

2
@jasonb, как насчет автора, размера, цены и ссылки, что-то вроде этого: Гайон ред., Извлечение функций: фонды и приложения 2006, 778p, $ 306
Денис

Ответы:


7

Я бы сказал, опыт - основные идеи:

  • соответствовать тому, как работают классификаторы; Передача геометрической задачи дереву, увеличение размера для kNN и интервальные данные для SVM не являются хорошими идеями
  • удалить как можно больше нелинейностей; ожидать, что какой-то классификатор выполнит анализ Фурье внутри, довольно наивно (даже если это потратит много сложностей)
  • сделать функции общими для всех объектов, чтобы некоторые выборки в цепочке не выбивали их
  • проверьте предыдущие работы - часто преобразование, используемое для визуализации или тестирования подобных типов данных, уже настроено, чтобы раскрыть интересные аспекты
  • избегать нестабильных, оптимизирующих преобразований, таких как PCA, которые могут привести к переоснащению
  • много экспериментировать

Как вы определяете «интервальные данные»? Я искал в Google и нашел много разных определений.
мощность

Можете ли вы уточнить точку PCA?
Даниэль Велков

Икс|Икс-ближайший премьер|<0,3

@DanielVelkov Когда вы загружаете PCA на довольно шумные данные, компоненты часто нестабильны; это продвигает идею сделать один глобальный PCA на весь доступный набор, что приводит к утечке информации и является прямым способом испортить оценку.

@mbq, что если PCA запускается только на тренировочном множестве, как это должно быть?
Даниэль Велков

1

Есть книга О'Рейли под названием « Разработка функций для машинного обучения », написанная Zheng et al.

Я прочитал книгу, и она охватывает различные типы данных (например, категориальные, текстовые ...) и описывает различные аспекты разработки функций, которые сопровождают ее. Это включает в себя такие вещи, как нормализация данных, выбор функции, TF-IDF в тексте.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.