У кого-нибудь есть опыт подходов к выбору количества разреженных главных компонентов для включения в регрессионную модель?
У кого-нибудь есть опыт подходов к выбору количества разреженных главных компонентов для включения в регрессионную модель?
Ответы:
Хотя у меня нет прямого понимания вашего вопроса, я наткнулся на некоторые исследовательские работы , которые могут вас заинтересовать. Это, конечно, если я правильно понимаю, что вы говорите о разреженном PCA , регрессии основного компонента и связанных с этим темах. В этом случае вот документы:
Результаты перекрестной проверки также использовались для определения оптимального количества измерений для пространства БИС. Слишком мало измерений не воспользовались предсказательной силой данных; в то время как слишком много размеров привели к переоснащению. На рис. 4 показано распределение средних ошибок для моделей с разным количеством измерений LSI. Модели с четырехмерными пространствами БИС выдали как наименьшее среднее количество ошибок, так и наименьшее среднее число ошибок, поэтому окончательная модель была построена с использованием четырехмерного пространства БИС.
Я могу опубликовать копию, если вы не являетесь участником ieee.
Это из статьи, которую я написал в старшекурснике. У меня была проблема, когда мне нужно было решить, сколько измерений (скрытое семантическое индексирование аналогично PCA) использовать в моей модели логистической регрессии. Я выбрал метрику (т. Е. Частоту ошибок при использовании вероятности пометки 0,5) и посмотрел на распределение этой частоты ошибок для разных моделей, обученных по разному количеству измерений. Затем я выбрал модель с самым низким уровнем ошибок. Вы можете использовать другие метрики, такие как площадь под кривой ROC.
Вы также можете использовать что-то вроде ступенчатой регрессии, чтобы выбрать количество измерений для вас. Какой тип регрессии вы выполняете конкретно?
Что вы имеете в виду под разреженным кстати?