Я пытаюсь понять, как работают функции влияния. Может ли кто-то объяснить в контексте простой регрессии OLS
где я хочу функцию влияния для .
Я пытаюсь понять, как работают функции влияния. Может ли кто-то объяснить в контексте простой регрессии OLS
где я хочу функцию влияния для .
Ответы:
Функции влияния - это в основном аналитический инструмент, который можно использовать для оценки эффекта (или «влияния») удаления наблюдения на значение статистики без необходимости пересчета этой статистики . Они также могут быть использованы для создания асимптотических оценок дисперсии. Если влияние равно то асимптотическая дисперсия равна .я 2
То, как я понимаю функции влияния, заключается в следующем. У вас есть какой-то теоретический CDF, обозначаемый . Для простого OLS у вас есть
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Обратите внимание, что поэтому мы получаем:
Частная производная здесь называется функцией влияния. Таким образом, это представляет приблизительную поправку «первого порядка», которая должна быть сделана к статистике из-за удаления «i-го» наблюдения. Обратите внимание, что в регрессии остаток не стремится к нулю асимметрично, так что это является приближением к изменениям, которые вы можете получить. Теперь напишите как:
Таким образом, бета является функцией двух статистик: дисперсии X и ковариации между X и Y. Эти две статистики имеют представления в терминах CDF как:
Для удаления i-го наблюдения мы заменим в обоих интегралах, чтобы получить:
игнорируя термины и упрощая, мы получаем: Аналогично для ковариации
Теперь мы можем выразить как функцию от . Это:
Теперь мы можем использовать серию Тейлор:
Упрощение этого дает:
значения статистики , , и мы получим:
И вы можете увидеть, как эффект удаления одного наблюдения может быть аппроксимирован без необходимости повторной подгонки модели. Вы также можете увидеть, как значение x, равное среднему, не влияет на наклон линии . Подумайте об этом, и вы увидите, как это имеет смысл. Вы также можете написать это более кратко в терминах стандартизированных значений (аналогично для y):
Вот супер общий способ говорить о функциях влияния регрессии. Сначала я собираюсь рассмотреть один из способов представления функций влияния:
Предположим, что - это распределение на . Загрязненная функция распределения , может быть определена как: где является вероятностной мерой на , которая присваивает вероятность 1 и 0 для всех других элементов .
Отсюда мы можем довольно легко определить функцию влияния:
Влияние функции из на , определяется следующим образом:
Отсюда можно увидеть, что функция влияния - это производная Гато от в в направлении . Это делает интерпретацию функций влияния (для меня) немного более ясной: функция влияния сообщает вам эффект, который конкретное наблюдение оказывает на оценку.
Оценка OLS является решением проблемы:
Представьте себе загрязненное распределение, которое придает наблюдательности немного больше веса :
Условия первого заказа:
Поскольку функция влияния является производной Гато, мы можем теперь сказать:
При , , поэтому:
Конечный выборочный аналог этой функции влияния:
В общем, я считаю, что с этой структурой (работающей с функциями влияния как производными Гато) легче разобраться.