Количество особенностей против количества наблюдений

26

Существуют ли какие-либо документы / книги / идеи о взаимосвязи между количеством признаков и количеством наблюдений, которые необходимы для обучения «надежного» классификатора?

Например, предположим, что у меня есть 1000 объектов и 10 наблюдений из двух классов в качестве обучающего набора и 10 других наблюдений в качестве набора для тестирования. Я тренирую некоторый классификатор X, и он дает мне 90% чувствительности и 90% специфичности в тестовом наборе. Допустим, я доволен этой точностью и могу сказать, что это хороший классификатор. С другой стороны, я аппроксимировал функцию из 1000 переменных, используя только 10 точек, что может показаться не очень ... надежным?

machine-learning

— Лео
источник

20

Здесь вы столкнулись с проклятием размерности или проблемой p >> n (где p - предикторы, а n - наблюдения). За эти годы было разработано много методов для решения этой проблемы. Вы можете использовать AIC или BIC, чтобы штрафовать модели с большим количеством предикторов. Вы можете выбрать случайные наборы переменных и оценить их важность с помощью перекрестной проверки . Вы можете использовать ребристую регрессию , лассо или эластичную сеть для регуляризации . Или вы можете выбрать методику, такую как метод опорных векторов или случайный лес, который хорошо справляется с большим количеством предикторов.

Честно говоря, решение зависит от специфики проблемы, которую вы пытаетесь решить.

— Zach
источник

9

Я подозреваю, что такие практические правила вообще не будут применимы. Рассмотрим проблему с двумя гауссовыми классами, центрированными на и , оба с ковариационной матрицей . В этом случае вам нужно всего два образца, по одному от каждого класса, чтобы получить идеальную классификацию, почти независимо от количества функций. На другом конце спектра, если оба класса центрированы в начале координат с ковариацией $\vec{+1}$ $\vec{-1}$ $0.000001*\vec{I}$ $\vec{I}$ никакое количество обучающих данных не даст вам полезного классификатора. В конце концов, количество выборок, которое вам нужно для данного количества функций, зависит от того, как распределяются данные. В общем, чем больше у вас функций, тем больше данных вам потребуется для адекватного описания распределения данных. (экспоненциальное число функций, если вам не повезло - см. проклятие размерности, упомянутое Заком).

Если вы используете регуляризацию, то в принципе (верхняя граница) ошибка обобщения не зависит от количества признаков (см. Работу Вапника над машиной опорных векторов). Однако это оставляет проблему нахождения хорошего значения для параметра регуляризации (перекрестная проверка удобна).

— Дикран Сумчатый
источник

9

Вероятно, у вас сложилось впечатление от классического моделирования, которое уязвимо к проблемам, подобным парадоксу Рунге, и, следовательно, требует некоторой настройки экономии при постобработке.
Тем не менее, в случае машинного обучения, идея включения надежности в качестве цели оптимизации модели является лишь ядром всей области (часто выражается в точности на невидимых данных). Итак, пока вы знаете, что ваша модель работает хорошо (например, из резюме), вероятно, нет смысла беспокоиться.

Реальная проблема с в случае ML заключается в нерелевантных атрибутах - в основном потому, что некоторые из них могут стать более пригодными для восстановления решения, чем действительно релевантные из-за некоторых случайных колебаний. Очевидно, что эта проблема не имеет ничего общего с скупостью, но, как и в классическом случае, приводит к ужасной потере силы обобщения. Как решить эту проблему, это другая история, называемая выбором функций, но общая идея состоит в том, чтобы предварительно обработать данные, чтобы устранить шум, а не накладывать ограничения на модель. $p\gg n$

1

Одна из моих самых ценных книг за эти годы - «Справочник Тинсли и Брауна» . В книге есть много мест, где эта тема обсуждается разными авторами.

— rolando2
источник