Мне не нравится информация Фишера, что она измеряет и чем она полезна. Кроме того, для меня не очевидны отношения с Крамером-Рао.
Может ли кто-нибудь дать интуитивное объяснение этих понятий?
Мне не нравится информация Фишера, что она измеряет и чем она полезна. Кроме того, для меня не очевидны отношения с Крамером-Рао.
Может ли кто-нибудь дать интуитивное объяснение этих понятий?
Ответы:
Здесь я объясняю, почему асимптотическая дисперсия оценки максимального правдоподобия является нижней границей Крамера-Рао. Надеюсь, это даст некоторое представление об актуальности информации Фишера.
Статистический вывод осуществляется с использованием функции правдоподобия которую вы строите из данных. Точечная оценка - это значение, которое максимизирует . Оценщик является случайной величиной, но помогает понять, что функция правдоподобия является "случайной кривой".θ L ( θ ) θ L ( θ )
Здесь мы предполагаем, что данные взяты из распределения , и определяем вероятность L ( θ ) = 1
Параметр имеет свойство максимизировать значение «истинного» правдоподобия, . Тем не менее, «наблюдаемая» функция правдоподобия которая построена на основе данных, немного «отличается» от истинного правдоподобия. Тем не менее, как вы можете себе представить, с увеличением размера выборки «наблюдаемая» вероятность сходится к форме кривой истинного вероятности. То же самое относится и к производной вероятности по параметру : функция оценки . (Короче говоря, информация Фишера определяет, насколько быстро наблюдаемая функция оценки сходится к форме функции истинной оценки.E L ( θ ) L ( θ ) ∂ L / ∂ θ
При большом размере выборки мы предполагаем, что наша оценка максимального правдоподобия очень близка к . Мы приближаемся к небольшой окрестности вокруг и чтобы функция правдоподобия была "локально квадратичной". ; & thetasthetas ; & thetas ;
Там, - это точка, в которой функция оценки пересекает начало координат. В этой небольшой области мы рассматриваем функцию оценки как линию , одну с наклоном и случайным пересечением в . Мы знаем из уравнения для линии, что
или же
Из последовательности оценки MLE мы знаем, что
в пределе.
Следовательно, асимптотически
Оказывается, что наклон изменяется намного меньше, чем перехват, и асимптотически мы можем рассматривать функцию оценки как наличие постоянного наклона в небольшой окрестности вокруг . Таким образом, мы можем написать
Итак, каковы значения и ? Оказывается, из-за чудесного математического совпадения они представляют собой ту же самую величину (по модулю знака минус), как и информация Фишера.
Таким образом,
Один из способов понять информацию о Фишере - это следующее определение:
Информация о Фишере может быть записана таким образом, когда плотность дважды дифференцируема. Если выборочное пространство не зависит от параметра , то мы можем использовать интегральную формулу Лейбница, чтобы показать, что первый член равен нулю (дифференцируем обе стороны дважды, и вы получите ноль), а второй термин является «стандартным» определением. Я возьму случай, когда первый член равен нулю. Случаи, когда он не равен нулю, не слишком полезны для понимания информации Фишера.
Теперь, когда вы делаете оценку максимального правдоподобия (вставьте здесь «условия регулярности»), вы устанавливаете
И решить для . Таким образом, вторая производная говорит о том, как быстро меняется градиент, и в некотором смысле «как далеко» может отойти от MLE, не внося заметных изменений в правой части вышеприведенного уравнения. Еще один способ думать об этом - представить «гору», нарисованную на бумаге - это функция логарифмического правдоподобия. Решение приведенного выше уравнения MLE показывает, где находится пик этой горы как функция случайной величины . Вторая производная говорит вам, насколько крутая гора - что в некотором смысле говорит вам, как легко найти вершину горы. Информация Фишера берется из взятия ожидаемой крутизны пика, и поэтому она имеет некоторую интерпретацию «предварительных данных».
Одна вещь, которую я до сих пор нахожу любопытной, заключается в том, насколько велика логарифмическая вероятность, а не насколько крутая монотонная функция вероятности (возможно, связана с «правильными» оценочными функциями в теории принятия решений? Или, может быть, с аксиомами согласованности энтропии?) ?).
Информация Фишера также «обнаруживается» во многих асимптотических анализах из-за того, что известно как приближение Лапласа. В основном это связано с тем, что любая функция с «хорошо округленным» одиночным повышением максимума до более высокой степени переходит в гауссову функцию (аналогично теореме о центральном пределе, но немного больше Генеральная). Поэтому, когда у вас большая выборка, вы эффективно находитесь в этой позиции и можете написать:
И когда вы Тейлор расширите логарифмическую вероятность MLE:
Что обычно означает хорошее приближение замены суммы интегралом, но для этого требуется, чтобы данные были независимыми. Таким образом, для больших независимых выборок (заданных ) вы можете видеть, что информация Фишера является переменной MLE для различных значений MLE.
Это самая интуитивная статья, которую я когда-либо видел:
Граница объясняется аналогией Адама и Евы в Эдемском саду, бросающих монету, чтобы увидеть, кто должен есть фрукты, и затем они спрашивают себя, насколько большой образец необходим для достижения определенного уровня точности в их оценке, и затем они обнаруживают эту связь ...
Хорошая история с глубоким посланием о реальности.
Хотя приведенные выше объяснения очень интересны, и я с удовольствием ознакомился с ними, я чувствую, что природа нижней границы Крамера-Рао была лучше всего объяснена мне с геометрической точки зрения. Эта интуиция представляет собой краткое изложение концепции эллипсов концентрации из главы 6 книги Шарфа «Статистическая обработка сигналов» .
Рассмотрим любую непредвзятую оценку . Кроме того, предположим, что оценщик имеет гауссово распределение с ковариацией . В этих условиях распределение пропорционально:
.
Теперь подумайте о контурах этого распределения для . Любое ограничение верхней границы вероятности (то есть ) приведет к эллипсоиду с центром в с фиксированным радиусом . Легко показать, что существует взаимно-однозначное соотношение между радиусом эллипсоида и желаемой вероятностью . Другими словами, близка к внутри эллипсоида, определяемого радиусом с вероятностьюthetas ; ∫ F ( & thetas ; ) d & thetas ; & le ; Р г & thetas ; г г Р г & thetas ; & thetas ;P r, Этот эллипсоид называется концентрационным эллипсоидом.
Учитывая приведенное выше описание, мы можем сказать следующее о CRLB. Среди всех объективных оценок CRLB представляет собой оценщик с ковариацией который для фиксированной вероятности "близости" (как определено выше) имеет наименьшую эллипсоид концентрации. На рисунке ниже представлена 2D-иллюстрация (вдохновленная иллюстрацией в книге Шарфа ).ЕгрглбРг