Для статистических моделей и моделей машинного обучения существует несколько уровней интерпретируемости: 1) алгоритм в целом, 2) части алгоритма в целом, 3) части алгоритма на конкретных входных данных, и эти три уровня разбиты на две части каждая, один для обучения и один для функции eval. Последние две части гораздо ближе, чем к первой. Я спрашиваю о # 2, который обычно приводит к лучшему пониманию # 3). (если это не то, что означает «интерпретируемость», тогда о чем мне думать?)
Что касается интерпретируемости, логистическая регрессия является одной из самых простых для интерпретации. Почему этот экземпляр прошел порог? Потому что этот экземпляр имел именно эту положительную особенность, и он имеет больший коэффициент в модели. Это так очевидно!
Нейронная сеть - классический пример модели, которую трудно интерпретировать. Что означают все эти коэффициенты ? Все они складываются таким сложным безумным образом, что трудно сказать, что на самом деле делает какой-то конкретный коэффициент.
Но с выходом всех глубоких нейронных сетей кажется, что все становится яснее. Модели DL (скажем, для видения), кажется, фиксируют такие вещи, как ребра или ориентация в ранних слоях, а в более поздних слоях кажется, что некоторые узлы на самом деле являются семантическими (например, общеизвестная «ячейка бабушки» ). Например:
( из «Изучения глубокого обучения» )
Это графика ( из многих ), созданная вручную для презентации, поэтому я очень скептически отношусь. Но это свидетельство того, что кто-то думает, что так оно и есть.
Возможно, в прошлом нам просто не хватало слоев, чтобы найти узнаваемые особенности; Модели были успешными, но не так просто проанализировать отдельные из них.
Но, может быть, графика это просто желаемое за действительное. Может быть, НН действительно непостижимы.
Но многие графические элементы с узлами, помеченными картинками, также действительно привлекательны.
Действительно ли DL-узлы соответствуют функциям?