Я использую регрессионную модель с Лассо и Риджем (для прогнозирования дискретной переменной результата в диапазоне от 0 до 5). Перед запуском модели я использую SelectKBest
метод, scikit-learn
чтобы уменьшить набор функций с 250 до 25 . Без первоначального выбора признаков и Лассо, и Ридж уступают более низким показателям точности [что может быть связано с небольшим размером выборки, 600]. Также обратите внимание, что некоторые функции взаимосвязаны.
После запуска модели я вижу, что точность предсказания почти одинакова с Лассо и Риджем. Однако, когда я проверяю первые 10 объектов после упорядочения их по абсолютному значению коэффициентов, я вижу, что перекрытие не более 50%.
То есть, учитывая, что каждый метод назначал разную важность функций, я мог бы иметь совершенно другую интерпретацию на основе выбранной мной модели.
Обычно функции представляют некоторые аспекты поведения пользователя на веб-сайте. Поэтому я хочу объяснить полученные выводы, выделив функции (поведение пользователей) с более сильной предсказательной способностью по сравнению с более слабыми функциями (поведение пользователей). Тем не менее, я не знаю, как двигаться вперед в этой точке. Как мне подходить к интерпретации модели? Например, следует ли объединить оба и выделить перекрывающийся, или я должен пойти с Лассо, поскольку это обеспечивает большую интерпретируемость?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .