Влияние функций и МНК

Я пытаюсь понять, как работают функции влияния. Может ли кто-то объяснить в контексте простой регрессии OLS

y_{i} = α + β \cdot x_{i} + ε_{i}

$\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation}$

где я хочу функцию влияния для . $\beta$

regression least-squares

— stevejb
источник

Здесь пока нет конкретного вопроса: хотите посмотреть, как вычисляется функция влияния? Хотите конкретный эмпирический пример? Эвристическое объяснение того, что это значит?

— whuber

Если вы посмотрите статью Фрэнка Кричли 1986 года «Функции влияния в главных компонентах» (не могу вспомнить точное название статьи). Здесь он определяет функцию влияния для обычной регрессии (которая может или не может доказать, что мой ответ неверен).

— вероятностная

Ответы:

Функции влияния - это в основном аналитический инструмент, который можно использовать для оценки эффекта (или «влияния») удаления наблюдения на значение статистики без необходимости пересчета этой статистики . Они также могут быть использованы для создания асимптотических оценок дисперсии. Если влияние равно то асимптотическая дисперсия равна . $I$ $\frac{I^2}{n}$

То, как я понимаю функции влияния, заключается в следующем. У вас есть какой-то теоретический CDF, обозначаемый . Для простого OLS у вас есть $F_{i}(y)=Pr(Y_{i}<y_{i})$

P r (Y_{i} < y_{i}) = P r (α + β x_{i} + ϵ_{i} < y_{i}) = Φ (\frac{y_{i} - (α + β x_{i})}{σ})

$Pr(Y_{i}<y_{i})=Pr(\alpha+\beta x_{i} + \epsilon_{i} < y_{i})=\Phi\left(\frac{y_{i}-(\alpha+\beta x_{i})}{\sigma}\right)$ Где - стандартный нормальный CDF, а - дисперсия ошибки. Теперь вы можете показать, что любая статистика будет функцией этого CDF, отсюда обозначение (т.е. некоторая функция ). Теперь предположим, что мы изменим функцию на «немного», чтобы где и . Таким образом, представляет CDF данных с удаленной «i-й» точкой данных. Мы можем сделать серию Тейлора

Φ (z)

$\Phi(z)$

σ^{2}

$\sigma^2$

S (F)

$S(F)$

F

$F$

F

$F$

F_{(i)} (z) = (1 + ζ) F (z) - ζ δ_{(i)} (z)

$F_{(i)}(z)=(1+\zeta)F(z)-\zeta \delta_{(i)}(z)$

δ_{i} (z) = I (y_{i} < z)

$\delta_{i}(z)=I(y_{i}<z)$

ζ = \frac{1}{n - 1}

$\zeta=\frac{1}{n-1}$

F_{(i)}

$F_{(i)}$

F_{(i)} (z)

$F_{(i)}(z)$ около . Это дает:

ζ = 0

$\zeta=0$

S [F_{(i)} (z, ζ)] \approx S [F_{(i)} (z, 0)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F_{(i)}(z,0)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

Обратите внимание, что поэтому мы получаем: $F_{(i)}(z,0)=F(z)$

S [F_{(i)} (z, ζ)] \approx S [F (z)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F(z)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

Частная производная здесь называется функцией влияния. Таким образом, это представляет приблизительную поправку «первого порядка», которая должна быть сделана к статистике из-за удаления «i-го» наблюдения. Обратите внимание, что в регрессии остаток не стремится к нулю асимметрично, так что это является приближением к изменениям, которые вы можете получить. Теперь напишите как: $\beta$

β = \frac{\frac{1}{n} \sum_{j = 1}^{n} (y_{j} - \bar{y}) (x_{j} - \bar{x})}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}

$\beta=\frac{\frac{1}{n}\sum_{j=1}^{n}(y_{j}-\overline{y})(x_{j}-\overline{x})}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}$

Таким образом, бета является функцией двух статистик: дисперсии X и ковариации между X и Y. Эти две статистики имеют представления в терминах CDF как:

c o v (X, Y) = \int (X - μ_{x} (F)) (Y - μ_{y} (F)) d F

$cov(X,Y)=\int(X-\mu_x(F))(Y-\mu_y(F))dF$ и где

v a r (X) = \int (X - μ_{x} (F))^{2} d F

$var(X)=\int(X-\mu_x(F))^{2}dF$

μ_{x} = \int x d F

$\mu_x=\int xdF$

Для удаления i-го наблюдения мы заменим в обоих интегралах, чтобы получить: $F\rightarrow F_{(i)}=(1+\zeta)F-\zeta \delta_{(i)}$

μ_{x (i)} = \int x d [(1 + ζ) F - ζ δ_{(i)}] = μ_{x} - ζ (x_{i} - μ_{x})

$\mu_{x(i)}=\int xd[(1+\zeta)F-\zeta \delta_{(i)}]=\mu_x-\zeta(x_{i}-\mu_x)$

V a r (X)_{(i)} = \int (X - μ_{x (i)})^{2} d F_{(i)} = \int (X - μ_{x} + ζ (x_{i} - μ_{x}))^{2} d [(1 + ζ) F - ζ δ_{(i)}]

$Var(X)_{(i)}=\int(X-\mu_{x(i)})^{2}dF_{(i)}=\int(X-\mu_x+\zeta(x_{i}-\mu_x))^{2}d[(1+\zeta)F-\zeta \delta_{(i)}]$

игнорируя термины и упрощая, мы получаем: Аналогично для ковариации $\zeta^{2}$

V a r (X)_{(i)} \approx V a r (X) - ζ [(x_{i} - μ_{x})^{2} - V a r (X)]

$Var(X)_{(i)}\approx Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]$

C o v (X, Y)_{(i)} \approx C o v (X, Y) - ζ [(x_{i} - μ_{x}) (y_{i} - μ_{y}) - C o v (X, Y)]

$Cov(X,Y)_{(i)}\approx Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]$

Теперь мы можем выразить как функцию от . Это: $\beta_{(i)}$ $\zeta$

β_{(i)} (ζ) \approx \frac{C o v (X, Y) - ζ [(x_{i} - μ_{x}) (y_{i} - μ_{y}) - C o v (X, Y)]}{V a r (X) - ζ [(x_{i} - μ_{x})^{2} - V a r (X)]}

$\beta_{(i)}(\zeta)\approx \frac{Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]}{Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]}$

Теперь мы можем использовать серию Тейлор:

β_{(i)} (ζ) \approx β_{(i)} (0) + ζ {[\frac{\partial β_{(i)} (ζ)}{\partial ζ}]}_{ζ = 0}

$\beta_{(i)}(\zeta)\approx \beta_{(i)}(0)+\zeta\left[\frac{\partial \beta_{(i)}(\zeta)}{\partial \zeta}\right]_{\zeta=0}$

Упрощение этого дает:

β_{(i)} (ζ) \approx β - ζ [\frac{(x_{i} - μ_{x}) (y_{i} - μ_{y})}{V a r (X)} - β \frac{(x_{i} - μ_{x})^{2}}{V a r (X)}]

$\beta_{(i)}(\zeta)\approx \beta-\zeta\left[\frac{(x_{i}-\mu_x)(y_{i}-\mu_y)}{Var(X)}-\beta\frac{(x_{i}-\mu_x)^2}{Var(X)}\right]$

значения статистики , , и мы получим: $\mu_y$ $\mu_x$ $var(X)$ $\zeta=\frac{1}{n-1}$

β_{(i)} \approx β - \frac{x_{i} - \bar{x}}{n - 1} [\frac{y_{i} - \bar{y}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}} - β \frac{x_{i} - \bar{x}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}]

$\beta_{(i)}\approx \beta-\frac{x_{i}-\overline{x}}{n-1}\left[\frac{y_{i}-\overline{y}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}-\beta\frac{x_{i}-\overline{x}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}\right]$

И вы можете увидеть, как эффект удаления одного наблюдения может быть аппроксимирован без необходимости повторной подгонки модели. Вы также можете увидеть, как значение x, равное среднему, не влияет на наклон линии . Подумайте об этом, и вы увидите, как это имеет смысл. Вы также можете написать это более кратко в терминах стандартизированных значений (аналогично для y): $\tilde{x}=\frac{x-\overline{x}}{s_{x}}$

β_{(i)} \approx β - \frac{\tilde{x_{i}}}{n - 1} [\tilde{y_{i}} \frac{s_{y}}{s_{x}} - \tilde{x_{i}} β]

$\beta_{(i)}\approx \beta-\frac{\tilde{x_{i}}}{n-1}\left[\tilde{y_{i}}\frac{s_y}{s_x}-\tilde{x_{i}}\beta\right]$

— probabilityislogic
источник

Таким образом, история о влиянии дополнительной точки данных? Я больше привык к импульсной реакции для данных временных рядов, в статистическом контексте все влияние будет описываться предельным эффектом или (лучшим выбором) бета-коэффициентом из стандартизированной регрессии. Ну, мне действительно нужно больше контекста, чтобы судить о вопросе и ответе, но этот, я думаю, хорош (+1 пока нет, но жду).

— Дмитрий Челов

@dmitrij - это то, что подразумевалось (или то, что я сделал вывод) из ссылки - это о свойствах надежности статистики. Функции влияния являются несколько более общими, чем 1 точка данных - вы можете переопределить дельта-функцию, чтобы получить их сумму (так много наблюдений). Я бы подумал, что это «дешевый Джекниф» в некоторой степени - потому что вам не требуется переоснащение модели.

— вероятностная

Вот супер общий способ говорить о функциях влияния регрессии. Сначала я собираюсь рассмотреть один из способов представления функций влияния:

Предположим, что - это распределение на . Загрязненная функция распределения , может быть определена как: где является вероятностной мерой на , которая присваивает вероятность 1 и 0 для всех других элементов . $F$ $\Sigma$ $F_\epsilon(x)$

F_{ϵ} (x) = (1 - ϵ) F + ϵ δ_{x}

$F_\epsilon(x)=(1-\epsilon)F+\epsilon\delta_x$

δ_{x}

$\delta_x$

Σ

$\Sigma$

{x}

$\{x\}$

Σ

$\Sigma$

Отсюда мы можем довольно легко определить функцию влияния:

Влияние функции из на , определяется следующим образом: $\hat{\theta}$ $F$ $\psi_i:\mathcal{X}\to\Gamma$

ψ_{\hat{θ}, F} (x) = lim_{ϵ \to 0} \frac{\hat{θ} (F_{ϵ} (x)) - \hat{θ} (F)}{ϵ}

$\begin{equation} \psi_{\hat{\theta},F}(x)=\lim\limits_{\epsilon\to 0}\dfrac{\hat{\theta}(F_\epsilon(x))-\hat{\theta}(F)}{\epsilon} \end{equation}$

Отсюда можно увидеть, что функция влияния - это производная Гато от в в направлении . Это делает интерпретацию функций влияния (для меня) немного более ясной: функция влияния сообщает вам эффект, который конкретное наблюдение оказывает на оценку. $\hat\theta$ $F$ $\delta_x$

Оценка OLS является решением проблемы:

\hat{θ} = \arg min_{θ} E [(Y - X θ)^{T} (Y - X θ)]

$\hat\theta=\arg\min_\theta E[(Y-X\theta)^T(Y-X\theta)]$

Представьте себе загрязненное распределение, которое придает наблюдательности немного больше веса : $(x,y)$

{\hat{θ}}_{ϵ} = \arg min_{θ} (1 - ϵ) E [(Y - X θ)^{T} (Y - X θ)] + ϵ (y - x θ)^{T} (y - x θ)

$\hat\theta_\epsilon = \arg\min_\theta (1-\epsilon)E[(Y-X\theta)^T(Y-X\theta)]+\epsilon (y-x\theta)^T(y-x\theta)$

Условия первого заказа:

{(1 - ϵ) E [X^{T} X] + ϵ x^{T} x} {\hat{θ}}_{ϵ} = (1 - ϵ) E [X^{T} Y] + ϵ x^{T} y

$\left\{(1-\epsilon)E[X^TX]+\epsilon x^Tx\right\}\hat\theta_\epsilon = (1-\epsilon)E[X^TY]+\epsilon x^Ty$

Поскольку функция влияния является производной Гато, мы можем теперь сказать:

- (E [X^{T} X] + x^{T} x) {\hat{θ}}_{ϵ} + E [X^{T} X] ψ_{θ} (x, y) = - E [X^{T} Y] + x^{T} y

$-(E[X^TX]+x^Tx)\hat\theta_\epsilon + E[X^TX]\psi_{\theta}(x,y) = -E[X^TY] + x^Ty$

При , , поэтому: $\epsilon=0$ $\hat\theta_\epsilon=\hat\theta=E[X^TX]^{-1}E[X^TY]$

ψ_{θ} (x, y) = E [X^{T} X]^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=E[X^TX]^{-1}x^T(y-x\theta)$

Конечный выборочный аналог этой функции влияния:

ψ_{θ} (x, y) = {(\frac{1}{N} \sum_{i} X_{i}^{T} X_{i})}^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=\left(\dfrac{1}{N}\sum_i X_i^TX_i\right)^{-1}x^T(y-x\theta)$

В общем, я считаю, что с этой структурой (работающей с функциями влияния как производными Гато) легче разобраться.

— jayk
источник