Насколько я понимаю, вы ищете меру переменной важности. Они имеют несколько разновидностей, основанных на нескольких различных теоретических подходах, но все они имеют сильные связи с методами, используемыми для оптимизации алгоритма, о котором вы говорите. Как правило, каждый алгоритм машинного обучения будет иметь метод канонической оптимизации; обратное распространение для нейронных сетей, последовательная минимальная оптимизация для SVM, различные информационные критерии и тесты статистической значимости для деревьев решений, включая значение хи-квадрат или примеси Джини. Конечно, для каждого из алгоритмов часто предлагаются другие более новые методы оптимизации.
Эти методы оптимизации для каждого алгоритма по существу определяют значение переменной для модели под рукой. По сути, вы ищете приблизительное или интерпретируемое представление результатов этого шага оптимизации, который предпринимает алгоритм. Однако это проблематично по нескольким причинам.
Сложность определения влияния данной переменной на выбор формы модели, учитывая, что выбор часто является самим стохастическим процессом. Переменные в некоторой степени влияют на выбор модели, так что даже если переменная не важна для окончательного прогноза в модели , это, возможно, решающим образом сформировало саму форму модели. Учитывая, что генерация самой модели часто является стохастической (оптимизируется с помощью оптимизации роя частиц или метода упаковки в мешки и т. Д.), Трудно понять, как именно данная переменная могла сформировать свою форму.
Сложность выделения важности одной переменной, учитывая, что она может быть важна только в сочетании или взаимодействии с другой переменной.
Некоторые переменные могут быть важны только для некоторых наблюдений. Отсутствие значимости в других наблюдениях может привести к путанице измерения общей важности, усредняя реальную разницу.
Также трудно получить непосредственно интерпретируемую метрику для переменной важности точно так, как это определено моделью, поскольку она может не давать единственного числа (особенно в случае упаковки в мешки). Вместо этого в этих случаях существует распределение важности для каждой переменной.
Одним из способов преодоления этих проблем может быть использование возмущения. Это способ анализа вашей окончательной модели путем добавления случайных шумов к вашим переменным, а затем проверки того, как это влияет на результаты. Преимущество состоит в том, что он позволяет вам находить, какие переменные наиболее важны эмпирически, путем моделирования - отвечая на вопрос, какие переменные больше всего разрушат предсказание, если его удалить. Недостатком является то, что существует высокая вероятность того, что даже если переменные были удалены / возмущены, модель (при повторном обучении) могла бы использовать другие переменные для воссоздания их эффекта, а это означает, что мера «важности переменной», которую вы выводите, все еще только истинно указывает на важность вашей обученной модели, но не общую важность для всех возможных моделей.