Я построил классификатор логистической регрессии, который очень точен в моих данных. Теперь я хочу лучше понять, почему это так хорошо работает. В частности, я хотел бы оценить, какие функции вносят наибольший вклад (какие функции являются наиболее важными) и, в идеале, количественно оценить, насколько каждая функция вносит вклад в точность общей модели (или что-то в этом духе). Как мне это сделать?
Моей первой мыслью было оценить их на основе их коэффициента, но я подозреваю, что это не может быть правильно. Если у меня есть две функции, которые одинаково полезны, но разброс первой в десять раз больше, чем второй, то я ожидаю, что первая получит более низкий коэффициент, чем вторая. Есть ли более разумный способ оценить важность функции?
Обратите внимание, что я не пытаюсь понять, насколько небольшое изменение в функции влияет на вероятность результата. Скорее, я пытаюсь понять, насколько ценна каждая функция с точки зрения точности классификатора. Кроме того, моей целью является не столько выбор объектов или построение модели с меньшим количеством функций, сколько попытка обеспечить некоторую «объяснимость» изученной модели, чтобы классификатор не был просто непрозрачным черным ящиком.