Какая информация является информацией Фишера?

29

Предположим, у нас есть случайная величина . Если был истинным параметром, функция правдоподобия должна быть максимизирована, а производная равна нулю. Это основной принцип оценки максимального правдоподобия. $X \sim f(x|\theta)$ $\theta_0$

Насколько я понимаю, информация о Фишере определяется как

I (θ) = E [{(\frac{\partial}{\partial θ} f (X | θ))}^{2}]

$I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ]$

Таким образом, если является истинным параметром, . Но если это не является истинным параметром, то у нас будет больше информации о Фишере. $\theta_0$ $I(\theta) = 0$ $\theta_0$

мои вопросы

Измеряет ли информация Фишера «ошибку» данного MLE? Другими словами, не означает ли наличие положительной информации Фишера, что моя MLE не может быть идеальной?
Чем это определение «информации» отличается от того, которое использует Шеннон? Почему мы называем это информацией?

— Стэн Шунпайк
источник

Почему ты пишешь это

E_{θ}

$E_\theta$ ? Ожидается превышение значений

X

$X$ распределенных так, как если бы они пришли из вашего распределения с параметром

θ

$\theta$ .

— Нил Г

3

Также

I (θ)

$I(\theta)$ не равно нулю при истинном параметре.

— Нил Г

E (S) равно нулю (то есть: ожидание функции оценки), но, как писал Нейл Г, информация Фишера (V (S)) не является (обычно) нулем.

— Таль Галили

15

Попытка дополнить другие ответы ... Какая информация является информацией Фишера? Начать с функцией loglikelihood в зависимости от & для ; , пространства параметров. Предполагая некоторые условия регулярности, которые мы здесь не обсуждаем, имеем

ℓ (θ) знак равно журнал е (Икс; θ)

$\ell (\theta) = \log f(x;\theta)$

θ

$\theta$

θ \in Θ

$\theta \in \Theta$

(мы будем писать производные по параметру как точкикак здесь). Дисперсия информация Фишера

последняя формула показываетчто это (отрицательный) кривизна функции loglikelihood. Часто можно найти оценку максимального правдоподобия (mle)

E \frac{\partial}{\partial θ} ℓ (θ) = E_{θ} \dot{ℓ} (θ) = 0

$\DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0$

я (θ) знак равно Е_{θ} (\dot{ℓ} (θ))^{2} знак равно - Е_{θ} \ddot{ℓ} (θ)

$I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta)$

путем решения уравнения правдоподобия

когда информация Фишера как дисперсия оценки

велика, тогда решение этого уравнения будет очень чувствительным к данным, что дает надежду на высокие Точность MLE. Это подтверждается, по крайней мере, асимптотически, поскольку асимптотическая дисперсия mle является обратной информацией Фишера.

θ

$\theta$

\dot{ℓ} (θ) = 0

$\dot{\ell}(\theta)=0$

\dot{ℓ} (θ)

$\dot{\ell}(\theta)$

Как мы можем интерпретировать это? - это информация о вероятности параметра из выборки. Это действительно можно интерпретировать только в относительном смысле, например, когда мы используем его для сравнения правдоподобия двух различных возможных значений параметров с помощью теста отношения правдоподобия . Скорость изменения логарифмического правдоподобия является функцией оценки говорит нам, как быстро изменяется вероятность, и ее дисперсия $\ell(\theta)$ $\theta$ $\ell(\theta_0) - \ell(\theta_1)$ $\dot{\ell}(\theta)$ $I(\theta)$ насколько это зависит от образца к образцу, при заданном значении paramiter, скажем . Уравнение (что действительно удивительно!) говорит нам, что существует связь (равенство) между изменчивостью информации (вероятности) для данного значения параметра, , и кривизна функции правдоподобия для этого значения параметра. Это удивительное соотношение между изменчивостью (дисперсией) этой статистики $\theta_0$

я (θ) знак равно - Е_{θ} \ddot{ℓ} (θ)

$I(\theta) = - \E_\theta \ddot{\ell}(\theta)$

θ_{0}

$\theta_0$

\dot{ℓ} (θ) ∣_{θ = θ_{0}}

$\dot{\ell}(\theta) \mid_{\theta=\theta_0}$ и ожидаемое изменение вероятности, когда мы изменяем параметр

в некотором интервале вокруг

(для тех же данных). Это действительно странно, удивительно и мощно!

θ

$\theta$

θ_{0}

$\theta_0$

Так, какова функция вероятности? Обычно мы рассматриваем статистическую модель как семейство вероятностных распределений для данных , проиндексированных параметром некоторого элемента в пространстве параметров . Мы считаем эту модель истинной, если существует некоторое значение такое, что данные фактически имеют распределение вероятностей $\{ f(x;\theta), \theta \in \Theta \}$ $x$ $\theta$ $\Theta$ $\theta_0 \in \Theta$ $x$ $f(x;\theta_0)$ , Таким образом, мы получаем статистическую модель путем встраивания истинного распределения вероятности данных в семейство вероятностных распределений. Но ясно, что такое вложение может быть сделано разными способами, и каждое такое вложение будет «истинной» моделью, и они будут давать разные функции правдоподобия. А без такого вложения нет функции правдоподобия. Кажется, что нам действительно нужна помощь, некоторые принципы того, как правильно выбрать вложение! $f(x;\theta_0)$

Итак, что это значит? Это означает, что выбор функции правдоподобия говорит нам, как мы можем ожидать, что данные изменятся, если правда немного изменится. Но это на самом деле не может быть подтверждено данными, так как данные дают информацию только об истинной функции модели которая фактически генерировала данные, и ничего о всех других элементах в выбранной модели. Таким образом, мы видим, что выбор функции правдоподобия аналогичен выбору априора в байесовском анализе, он вводит информацию, не относящуюся к данным, в анализ. Давайте посмотрим на это в простом (несколько искусственном) примере и посмотрим на эффект вложения $f(x;\theta_0)$ $f(x;\theta_0)$ в модели по-разному.

Предположим, что определены как . Итак, это истинное распределение, генерирующее данные. Теперь давайте встроим это в модель двумя различными способами: модель A и модель B. $X_1, \dotsc, X_n$ $N(\mu=10, \sigma^2=1)$ вы можете проверить, что это совпадает для .

A : {Икс}_{1}, ..., {Икс}_{N} н.о.р. N (μ, σ^{2} знак равно 1), μ \in р В : {Икс}_{1}, ..., {Икс}_{N} н.о.р. N (μ, μ / 10), μ > 0

$A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \\ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0$

μ = 10

$\mu=10$

Функции логарифмического правдоподобия становятся

ℓ_{A} (μ) знак равно - \frac{N}{2} журнал (2 π) - \frac{1}{2} \underset{я}{Σ} ({Икс}_{я} - μ)^{2} ℓ_{В} (μ) знак равно - \frac{N}{2} журнал (2 π) - \frac{N}{2} журнал (μ / 10) - \frac{10}{2} \underset{я}{Σ} \frac{({Икс}_{я} - μ)^{2}}{μ}

$\ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \\ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu}$

{\dot{ℓ}}_{A} (μ) знак равно N (\bar{Икс} - μ) {\dot{ℓ}}_{В} (μ) знак равно - \frac{N}{2 μ} - \frac{10}{2} \underset{я}{Σ} (\frac{{Икс}_{я}}{μ})^{2} - 15 N

$\dot{\ell}_A(\mu) = n (\bar{x}-\mu) \\ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n$

{\ddot{ℓ}}_{A} (μ) знак равно - N {\ddot{ℓ}}_{В} (μ) знак равно \frac{N}{2 μ^{2}} + \frac{10}{2} \underset{я}{Σ} \frac{2 {Икс}_{я}^{2}}{μ^{3}}

$\ddot{\ell}_A(\mu) = -n \\ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3}$

μ = 10

$\mu=10$

я_{A} (μ знак равно 10) знак равно N, я_{В} (μ знак равно 10) знак равно N \cdot (\frac{1}{200} + \frac{2020}{2000}) > N

$I_A(\mu=10) = n, \\ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n$

$\mu$

Кроме того, этот пример иллюстрирует, что нам действительно нужна некоторая теория, чтобы помочь нам в создании семейств моделей.

— Къетил б Халворсен
источник

1

\E_{θ} \dot{ℓ} (θ) = 0

$\E_\theta \dot{\ell}(\theta) =0$

θ

$\theta$

θ_{0}

$\theta_0$

1

Да, то, что вы говорите, верно, @idadanny Это значение равно нулю, когда оценивается при значении истинного параметра.

— kjetil b halvorsen

θ

$\theta$

θ_{0}

$\theta_0$

\hat{θ}

$\hat{\theta}$

θ_{0}

$\theta_0$

θ_{m l e}

$\theta_{mle}$

θ_{0}

$\theta_0$

θ_{1}

$\theta_1$

31

$\ell$ $\ell$ $\ell$

$\ell$ $\theta$ $\theta$

Учтите, что у вас была большая модель с миллионами параметров. И у вас был маленький флеш-накопитель, на котором можно хранить вашу модель. Как вы должны расставить приоритеты, сколько бит каждого параметра хранить? Правильный ответ - распределить биты в соответствии с информацией Фишера (об этом писал Риссанен). Если информация о параметре Фишера равна нулю, этот параметр не имеет значения.

Мы называем это «информацией», потому что информация Фишера измеряет, насколько этот параметр говорит нам о данных.

Разговорный способ думать об этом так: предположим, что параметры управляют автомобилем, а данные на заднем сиденье корректируют водителя. Раздражительность данных - это информация Фишера. Если данные позволяют драйверу проехать, информация Фишера равна нулю; если данные постоянно вносят исправления, они большие. В этом смысле информация Фишера - это объем информации, идущей от данных к параметрам.

Подумайте, что произойдет, если вы сделаете руль более чувствительным. Это эквивалентно репараметризации. В этом случае данные не хотят быть такими громкими из-за страха чрезмерного поворота автомобиля. Этот вид репараметризации уменьшает информацию Фишера.

— Нил Г
источник

20

В дополнение к приятному ответу @ NeilG (+1) и к вашим конкретным вопросам:

Я бы сказал, что он учитывает «точность», а не саму «ошибку».

Помните, что гессиан логарифмического правдоподобия, оцененный по оценкам ML, является наблюдаемой информацией Фишера. Расчетные стандартные ошибки представляют собой квадратные корни диагональных элементов, обратных наблюдаемой информационной матрице Фишера. Исходя из этого, информация Фишера является следом информационной матрицы Фишера. Учитывая, что информационная матрица Фишера $I$ является эрмитовой матрицей положительно-полуопределенной матрицы, то диагональные элементы $I_{j,j}$ из этого реальны и неотрицательны; как прямое следствие $tr(I)$ должен быть положительным. Это означает, что вы можете иметь только «неидеальные» оценки в соответствии с вашим утверждением. Так что нет, положительная информация Фишера не связана с тем, насколько идеален ваш MLE.

Определение отличается в том, как мы интерпретируем понятие информации в обоих случаях. Сказав это, два измерения тесно связаны.

Обратной информацией Фишера является минимальная дисперсия несмещенной оценки ( граница Крамера – Рао ). В этом смысле информационная матрица указывает, сколько информации о оценочных коэффициентах содержится в данных. Наоборот, энтропия Шеннона была взята из термодинамики. Он связывает информационное содержание определенного значения переменной как $–p·log_2(p)$ где $p$ вероятность того, что переменная принимает значение. Оба являются измерениями того, насколько «информативна» переменная. В первом случае вы судите эту информацию с точки зрения точности, а во втором - с точки зрения беспорядка; разные стороны, одна и та же монета! : D

Напомним: обратная сторона информационной матрицы Фишера $I$ при значениях оценки ML оценивается асимптотическая или приближенная ковариационная матрица. Поскольку эти значения оценщика ML находятся в локальном минимуме графически, информация Фишера показывает, насколько глубокий этот минимум и сколько у вас пространства для маневра вокруг него. Я нашел эту статью Lutwak et al. на расширениях информации Фишера и неравенстве Ст в информативном чтении по этому вопросу. Статьи Википедии об информационной метрике Фишера и о расхождении Дженсена-Шеннона также хороши для начала.

— usεr11852 говорит восстановить Monic
источник