Выбор количества разреженных главных компонентов для включения в регрессию

У кого-нибудь есть опыт подходов к выбору количества разреженных главных компонентов для включения в регрессионную модель?

pca sparse regression-strategies

— Фрэнк Харрелл
источник

У меня нет такого опыта, но я бы предположил, что перекрестная проверка была бы одним хорошим подходом (как всегда).

— амеба

Хотя у меня нет прямого понимания вашего вопроса, я наткнулся на некоторые исследовательские работы , которые могут вас заинтересовать. Это, конечно, если я правильно понимаю, что вы говорите о разреженном PCA , регрессии основного компонента и связанных с этим темах. В этом случае вот документы:

— Александр Блех
источник

Я не знал обо всех этих ссылках. Они очень хорошие - спасибо.

— Фрэнк Харрелл

@FrankHarrell: Всегда пожалуйста! Рад, что смог помочь.

— Александр Блех

Результаты перекрестной проверки также использовались для определения оптимального количества измерений для пространства БИС. Слишком мало измерений не воспользовались предсказательной силой данных; в то время как слишком много размеров привели к переоснащению. На рис. 4 показано распределение средних ошибок для моделей с разным количеством измерений LSI. Модели с четырехмерными пространствами БИС выдали как наименьшее среднее количество ошибок, так и наименьшее среднее число ошибок, поэтому окончательная модель была построена с использованием четырехмерного пространства БИС.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Я могу опубликовать копию, если вы не являетесь участником ieee.

Это из статьи, которую я написал в старшекурснике. У меня была проблема, когда мне нужно было решить, сколько измерений (скрытое семантическое индексирование аналогично PCA) использовать в моей модели логистической регрессии. Я выбрал метрику (т. Е. Частоту ошибок при использовании вероятности пометки 0,5) и посмотрел на распределение этой частоты ошибок для разных моделей, обученных по разному количеству измерений. Затем я выбрал модель с самым низким уровнем ошибок. Вы можете использовать другие метрики, такие как площадь под кривой ROC.

Вы также можете использовать что-то вроде ступенчатой регрессии, чтобы выбрать количество измерений для вас. Какой тип регрессии вы выполняете конкретно?

Что вы имеете в виду под разреженным кстати?

— Эндрю Кэссиди
источник

Разреженный ПК представляет собой, например, L1 (лассо) -пенализированную PCA. В обычном PCA мы обычно можем вводить термины в порядке объяснения изменений. С разреженным PCA дела обстоят немного более непредсказуемо, поэтому выбор, возможно, сложнее.

— Фрэнк Харрелл

Вопрос был конкретно о разреженных главных компонентах, и этот ответ (как бы он ни был) не решает его вообще , поэтому -1.

— амеба

Y

$Y$

@FrankHarrell, который потенциально может произойти, но менее вероятен, если вы используете AIC вместо R-квадрата

— Эндрю Кэссиди

@amoeba Я в замешательстве ... нет, я не рассмотрел "редкую" часть основных комментариев, но вы сделали то же самое предложение использовать перекрестную проверку в комментарии?

— Эндрю Кэссиди