Инженерно-независимый признак, который сохраняет смысловой смысл?

12

Функциональное проектирование часто является важным компонентом машинного обучения (оно активно использовалось для победы в KDD Cup в 2010 году ). Тем не менее, я считаю, что большинство технических характеристик техники либо

уничтожить любое интуитивное значение основных функций или
очень специфичны для конкретного домена или даже определенных типов функций.

Классическим примером первого будет анализ основных компонентов. Мне кажется, что любые знания, которые будет иметь предметный эксперт об этих функциях, будут уничтожены путем преобразования этих функций в основные компоненты.

Сравните это с простой техникой преобразования даты в функции для «дня месяца» и «дня недели». Основное значение все еще сохраняется в новых функциях, но очевидно, что этот конкретный метод применим только к датам, а не к произвольным функциям.

Существует ли какой-либо стандартный набор методов проектирования функций, которые не разрушают значение базовых функций, но также применимы к произвольным доменам (или, по крайней мере, к широкому спектру доменов)?

predictive-models feature-selection feature-construction

— Майкл МакГоуэн
источник

2

Иногда PCA можно использовать для нахождения интуитивного значения функций, например, собственных лиц .

— тдк

Можете ли вы привести (больше) примеров данных, которые вы имеете в виду? если вы будете более точны в своем заявлении (даже в произвольном примере), вам будет легче дать (более) точный ответ.

— Дов

1

@Dov Ну, суть в том, что (в идеале) я хотел бы что-то, что могло бы работать практически для любого структурированного, табличного набора данных (тот, который имеет точки данных и функции). Таким образом, это могут быть данные о продажах, финансовые данные, данные об обнаружении наркотиков, данные о бейсболе и т. Д.

— Майкл МакГоуэн

7

Мне известен один метод декомпозиции (но, может быть, есть и другие ...), который может быть полезен в сценариях, которые вы описываете. Это похоже на 2D-PCA - метод разложения высокого порядка, где разложение (то есть факторы) имеют некоторый смысл. Вы можете увидеть примеры и прочитать об этом здесь и здесь и попытаться здесь

— Дов
источник

+ пожалуйста, прости меня, что я не являюсь носителем английского языка :)

— Дов

Из того, что мне сказали, последним шагом PCA должна быть попытка найти значение для основного компонента.

— JB.

5

Недавние методы глубокого обучения, использующие Restricted Boltzmann Machine, продемонстрировали приятные возможности для нескольких типов данных (аудио, изображения, текст).

Поскольку эти методы создают генеративную модель, вы часто можете генерировать действительно хорошие образцы из модели.

Проверьте публикации Хинтона. http://www.cs.toronto.edu/~hinton/

Эти методы не являются общими (запускают один и тот же код для всех данных), но базовая модель обычно похожа.

— Ран
источник