В чем преимущество уменьшения размерности предикторов для целей регрессии?


11

Каковы применения или преимущества методов регрессии с уменьшением размерности (DRR) или контролируемого уменьшения размерности (SDR) по сравнению с традиционными методами регрессии (без уменьшения размерности)? Этот класс методов находит низкоразмерное представление набора функций для задачи регрессии. Примеры таких методов включают в себя секвированную обратную регрессию, главные гессианские направления, оценку средней дисперсии ломтики, регрессионную секцию в ядре, регрессию главных компонентов и т. Д.

  1. С точки зрения перекрестной проверки RMSE, если алгоритм работал лучше в задаче регрессии без какого-либо уменьшения размерности, то каково реальное использование уменьшения размерности для регрессии? Я не понимаю смысл этих методов.

  2. Используются ли эти методы случайно для уменьшения пространственно-временной сложности регрессии? Если это является основным преимуществом, некоторые ресурсы по снижению сложности для многомерных наборов данных при использовании этих методов будут полезны. Я спорю об этом с тем фактом, что для запуска техники DRR или SDR требуется некоторое время и пространство. Является ли эта регрессия SDR / DRR + для набора данных с более низким уровнем яркости быстрее, чем регрессия только для набора данных с высоким уровнем яркости?

  3. Была ли эта установка изучена исключительно для абстрактного интереса и не имеет хорошего практического применения?

В качестве побочной мысли: иногда бывают предположения, что совместное распределение признаков и отклика лежит на многообразии. В этом контексте имеет смысл изучить многообразие из наблюдаемой выборки для решения задачи регрессии.YXY


1
Вы говорите о многогранном обучении, так что следующий пост может быть полезен
kjetil b halvorsen

Ответы:


5

В соответствии с гипотезой о многообразии предполагается, что данные лежат на низкоразмерном коллекторе, что подразумевает, что остаток представляет собой шум, поэтому, если вы правильно сделаете уменьшение размерности, вам следует повысить производительность, моделируя сигнал, а не шум. Это не просто вопрос пространства и сложности.


но я не вижу, чтобы такие методы, как SIR, работали лучше после уменьшения размерности. Поправьте меня, если я не прав или если вы знаете технику SDR / DDR, которая может лучше находить этот сигнал - в настройке регрессии, дайте мне знать, что это за техника (название).
катафалк

Конечно, это зависит от алгоритма регрессии и внутренней размерности данных. В частности, я не могу говорить о SIR, но вот статья, в которой сравниваются различные алгоритмы регрессии в наборе данных MNIST, который является низкоразмерным. Может быть, вы могли бы поделиться некоторыми проблемными данными, чтобы люди могли взломать их.
Эмре

Что такое «гипотеза многообразия»?
говорит амеба: восстанови монику


Интересно, похож ли этот материал на нейронные сети и нелинейное многомерное масштабирование в том смысле, что он «звучит так», что он должен быть великолепным везде, но на практике он хорошо работает в более ограниченном числе случаев
shadowtalker

6

Целью уменьшения размерности в регрессии является регуляризация.

Большинство техник, которые вы перечислили, не очень хорошо известны; Я не слышал ни о одном из них, кроме регрессии основных компонентов (ПЦР). Поэтому я отвечу о ПЦР, но ожидаю, что то же самое относится и к другим методам.

Два ключевых слова здесь - переоснащение и регуляризация . Для длительного обсуждения и обсуждения я отсылаю вас к элементам статистического обучения , но очень кратко, что произойдет, если у вас много предикторов ( ) и недостаточно выборок ( ), если стандартная регрессия будет соответствовать данным, и вы будете построить модель, которая, кажется, имеет хорошую производительность на тренировочном наборе, но на самом деле имеет очень низкую производительность на любом тестовом наборе.нpn

В крайнем примере, когда количество предикторов превышает количество выборок (люди называют это проблемой ), вы можете фактически идеально подобрать любую переменную ответа , достигнув, по-видимому, производительности. Это явно глупость.у 100 %p>ny100%

Чтобы справиться с переоснащением, нужно использовать регуляризацию , и существует множество различных стратегий регуляризации. В некоторых подходах один пытается резко сократить число предикторов, сводя задачу к ситуации, а затем использовать стандартную регрессию. Это именно то, что делает регрессия главных компонентов. Пожалуйста, смотрите Элементы , разделы 3.4--3.6. ПЦР обычно неоптимальна, и в большинстве случаев некоторые другие методы регуляризации будут работать лучше, но ее легко понять и интерпретировать.pn

Обратите внимание, что ПЦР также не является произвольной (например, случайное хранение измерений, вероятно, будет работать намного хуже). Причиной этого является то, что ПЦР тесно связана с регрессией гребня, которая является стандартным регулятором усадки, который, как известно, хорошо работает в самых разных случаях. Смотрите мой ответ здесь для сравнения: взаимосвязь между регрессией гребня и регрессией PCA .p

Чтобы увидеть увеличение производительности по сравнению со стандартной регрессией, вам нужен набор данных с большим количеством предикторов и не так много выборок, и вам определенно необходимо использовать перекрестную проверку или независимый набор тестов. Если вы не заметили увеличения производительности, возможно, в вашем наборе данных недостаточно измерений.

Связанные темы с хорошими ответами:


1
Учитывая его публикации , можно предположить, что он это знает.
Эмре

Спасибо, @Emre, я понятия не имел, кто такой ОП. Возможно, я неправильно понял вопрос, но теперь, перечитав его, я не понимаю, как я могу интерпретировать его по-другому. Если кто-то спрашивает, каково практическое преимущество ПЦР, тогда ответом является регуляризация; ПЦР на самом деле тесно связана с регрессией гребня, которая является одним из самых стандартных методов регуляризации.
говорит амеба: восстанови монику

p>n

@ssdecontrol: я согласен. Я думаю, что консенсус заключается в том, что ПЦР в значительной степени неконкурентоспособен и почти всегда существуют лучшие подходы. Это также то, что я написал в своем ответе (не так ли?), Но вопрос был конкретно об уменьшении размерности предикторов и о том, какова его цель. Мой ответ таков: цель - регуляризация.
говорит амеба, восстанови Монику

Понял. Но я думаю, что мы можем согласиться с тем, что вопрос загружен специально, чтобы оспорить его полезность, учитывая, что на самом деле это не лучший способ упорядочить, несмотря на его интуитивную привлекательность
shadowtalker
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.