Я читал другие темы о графиках частичной зависимости, и большинство из них касаются того, как вы на самом деле строите их с помощью разных пакетов, а не того, как вы можете их точно интерпретировать, поэтому:
Я читал и создавал изрядное количество графиков частичной зависимости. Я знаю, что они измеряют предельное влияние переменной χs на функцию ƒS (χS) со средним влиянием всех других переменных (χc) из моей модели. Более высокие значения y означают, что они оказывают большее влияние на точное прогнозирование моего класса. Однако я не удовлетворен этой качественной интерпретацией.
Моя модель (случайный лес) предсказывает два дискретных класса. «Да деревья» и «Нет деревьев». TRI - это переменная, которая оказалась хорошей переменной для этого.
Я начал думать, что значение Y показывает вероятность правильной классификации. Пример: y (0,2) показывает, что значения TRI> ~ 30 имеют 20% шанс правильно идентифицировать истинно положительную классификацию.
Где наоборот
y (-0.2) показывает, что значения TRI <~ 15 имеют 20% шанс правильно идентифицировать истинно отрицательную классификацию.
Общие интерпретации, сделанные в литературе, будут звучать так: «Значения, превышающие TRI 30, начинают оказывать положительное влияние на классификацию в вашей модели», и все. Это звучит так расплывчато и бессмысленно для сюжета, который потенциально может так много говорить о ваших данных.
Кроме того, все мои графики ограничены в диапазоне от -1 до 1 для оси y. Я видел другие графики с -10 до 10 и т. Д. Является ли это функцией того, сколько классов вы пытаетесь предсказать?
Мне было интересно, если кто-нибудь может говорить с этой проблемой. Может быть, покажите мне, как я должен интерпретировать эти сюжеты или какую-нибудь литературу, которая может мне помочь. Может быть, я читаю слишком далеко в этом?
Я очень внимательно прочитал элементы статистического обучения: интеллектуальный анализ данных, умозаключения и предсказания, и это было отличной отправной точкой, но это все.