Предельный эффект модели Probit и Logit

12

Кто-нибудь может объяснить, как рассчитать предельный эффект модели Probit и Logit с точки зрения непрофессионала?

Я новичок в статистике, и я запутался в этих двух моделях.

Обратите внимание, что числа, полученные из моделей Probit и Logit, выглядят так, как будто они измеряют примерно одно и то же, но часто отличаются численно. Когда вы переводите их обратно в реальную жизнь, разница между ними обычно становится намного меньше.

— Генри

15

Я думаю, что лучший способ увидеть предельный эффект данной переменной, скажем, , состоит в том, чтобы создать график рассеяния предсказанной вероятности на вертикальной оси и иметь на горизонтальной оси. Это самый «непрофессиональный» способ, который я могу себе представить, чтобы указать, насколько влиятельна данная переменная. Нет математики, только картинки. Если у вас много точек данных, то блокпост или сглаживающий график может помочь определить, где находится большая часть данных (в отличие от просто облака точек). $X_j$ $X_j$

Не уверен, как "Layman" следующий раздел, но вы можете найти его полезным.

Если мы посмотрим на маргинальный эффект, назовем его , отметив, что , получим $m_j$ $g(p)=\sum_kX_k\beta_k$

m_{j} = \frac{\partial p}{\partial X_{j}} = \frac{β_{j}}{g^{'} [g^{- 1} (X^{T} β)]} = \frac{β_{j}}{g^{'} (p)}

$m_j=\frac{\partial p}{\partial X_j}=\frac{\beta_j}{g'\left[g^{-1}(X^T\beta)\right]}=\frac{\beta_j}{g'(p)}$

Таким образом, предельный эффект зависит от предполагаемой вероятности и градиента функции связи в дополнение к бета-версии. Деление на происходит из правила цепочки для дифференцирования и того факта, что . Это можно показать, дифференцируя обе стороны очевидно истинного уравнения . У нас также есть по определению. Для логит-модели имеем , а предельный эффект: $g'(p)$ $\frac{\partial g^{-1}(z)}{\partial z}=\frac{1}{g'\left[g^{-1}(z)\right]}$ $z=g\left[g^{-1}(z)\right]$ $g^{-1}(X^T\beta)=p$ $g(p)=\log(p)-\log(1-p)\implies g'(p)=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}$

m_{j}^{l o g i t} = β_{j} p (1 - p)

$m_j^{logit}=\beta_jp(1-p)$

Что это значит? скважина равна нулю при и при , и она достигает своего максимального значения при . Таким образом, предельный эффект наибольший, когда вероятность около , и наименьший, когда около или около . Тем не менее, все еще зависит от , поэтому предельные эффекты являются сложными. Фактически, поскольку это зависит от , вы получите различный маргинальный эффект для разных $p(1-p)$ $p=0$ $p=1$ $0.25$ $p=0.5$ $0.5$ $p$ $0$ $1$ $p(1-p)$ $X_j$ $p$ $X_k,\;k\neq j$ ценности. Возможно, одна из веских причин просто сделать эту простую диаграмму рассеяния - не нужно выбирать, какие значения ковариат использовать.

Для пробной модели имеем где - стандартный нормальный CDF, а - стандартный нормальный pdf. Итак, мы получаем: $g(p)=\Phi^{-1}(p)\implies g'(p)=\frac{1}{\phi\left[\Phi^{-1}(p)\right]}$ $\Phi(.)$ $\phi(.)$

m_{j}^{p r o b i t} = β_{j} ϕ [Φ^{- 1} (p)]

$m_j^{probit}=\beta_j\phi\left[\Phi^{-1}(p)\right]$

Обратите внимание, что он обладает большинством свойств, которые маргинальный эффект я обсуждал ранее, и в равной степени относится к любой функции связи, которая симметрична относительно (и, разумеется, в здравом уме, например, ). Зависимость от более сложна, но все еще имеет общую форму «горба» (самая высокая точка в , самая низкая в и ). Функция связывания изменит размер максимальной высоты (например, максимальный пробит - , логит - ) и насколько быстро предельный эффект сужается к нулю. $m_j^{logit}$ $0.5$ $g(p)=tan(\frac{\pi}{2}[2p-1])$ $p$ $0.5$ $0$ $1$ $\frac{1}{\sqrt{2\pi}}\approx 0.4$ $0.25$

— probabilityislogic
источник

effectsПакет в R может легко производить такие участки предсказанной вероятности по вертикальной оси против X на горизонтальной оси. См. Socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html

— landroni

Смотрите также: stats.stackexchange.com/questions/18814/…

— landroni

5

Модели logit и probit обычно используются для определения вероятности того, что зависимая переменная y равна 0 или 1 на основе количества входных переменных.

На английском: Предположим, вы пытаетесь предсказать двоичное значение, например, будет ли у кого-то заболевание сердца в течение жизни. У вас есть несколько входных переменных, таких как артериальное давление, возраст, курят они или нет, их ИМТ, где они живут и т. Д. И т. Д. Все эти переменные могут каким-то образом влиять на вероятность развития сердечно-сосудистых заболеваний.

Предельный эффект от одной входной переменной: если вы немного увеличите эту переменную, как это повлияет на вероятность возникновения сердечно-сосудистых заболеваний? Предположим, что кровяное давление немного увеличивается, как это влияет на риск сердечно-сосудистых заболеваний? Или если вы повысите возраст на год?

Некоторые из этих эффектов также могут быть нелинейными: увеличение ИМТ на небольшую величину может иметь совершенно иной эффект для человека с очень здоровым ИМТ, чем для человека, у которого его нет.

— robbrit
источник

1

Вы все еще хотели бы, чтобы ваш дилетант знал исчисление, поскольку предельный эффект является производной от подобранной вероятности по отношению к интересующей переменной. Поскольку подобранная вероятность - это функция связи (логит, пробит или что-то еще), примененная к подобранным значениям, вам нужно правило цепочки для ее вычисления. Таким образом, в моделях с линейным индексом (где параметры вводятся как что-то вроде X'b), оно равно оценке параметра, умноженной на производную функции связи. Поскольку производная отличается при разных значениях регрессоров (в отличие от случая линейной модели), вы должны решить, где оценивать предельный эффект. Естественным выбором будут средние значения всех регрессоров. Другим подходом будет оценка эффекта для каждого наблюдения, а затем усреднение по ним. Интерпретация отличается соответственно.

— Alex
источник