Почему Ограниченная максимальная вероятность дает лучшую (непредвзятую) оценку дисперсии?


11

Я читаю теоретическую статью Дуга Бейтса о пакете lme4 в R, чтобы лучше понять суть смешанных моделей, и натолкнулся на интригующий результат, который я хотел бы лучше понять, об использовании ограниченного максимального правдоподобия (REML) для оценки дисперсии ,

В разделе 3.3, посвященном критерию REML, он утверждает, что использование REML при оценке отклонений тесно связано с использованием коррекции степеней свободы при оценке отклонений от остаточных отклонений в подобранной линейной модели. В частности, «хотя это обычно не получается таким образом», коррекция степеней свободы может быть получена путем оценки дисперсии путем оптимизации «критерия REML» (уравнение (28)). Критерий REML, по сути, является просто вероятностью, но параметры линейного соответствия были исключены путем маргинализации (вместо того, чтобы устанавливать их равными оценке соответствия, что давало бы смещенную выборочную дисперсию).

Я сделал математику и проверил заявленный результат для простой линейной модели с фиксированными эффектами. С чем я борюсь, так это с интерпретацией. Есть ли какая-то перспектива, из которой естественно получить оценку отклонения путем оптимизации вероятности того, что параметры подгонки были обособлены? Это похоже на байесовский эффект, как будто я думаю о вероятности апостериорного и маргинализирующего соответствия параметров, как будто они являются случайными переменными.

Или же обоснование в первую очередь просто математическое - оно работает в линейном случае, но также обобщается?

Ответы:


4

Смещение в дисперсии обусловлено тем фактом, что среднее значение было оценено на основе данных, и, следовательно, «разброс этих данных вокруг этого расчетного среднего значения» (т.е. дисперсия) меньше, чем разброс данных вокруг «истинного» среднего значения. , Смотрите также: Интуитивное объяснение деления на при расчете стандартного отклонения?N-1

Фиксированные эффекты определяют модель «для среднего значения», поэтому, если вы можете найти оценку дисперсии, которая была получена без оценки среднего значения по данным (путем «маргинализации фиксированных эффектов (т.е. среднего значения)»), то эта недооценка распространение (то есть дисперсия) будет смягчено.

Это «интуитивное» понимание того, почему оценки REML устраняют смещение; Вы находите оценку дисперсии без использования «оценочного среднего».


1

Ознакомьтесь с ПРИЛОЖЕНИЕМ: МЕТОД ОЦЕНКИ REML из этого ресурса, связанного с SAS, от автора Дэвида Дики.

« Мы всегда можем найти (n-1) числа Z с известным средним 0 и той же суммой квадратов и теоретической дисперсией, что и значения n Y. Это мотивирует деление суммы квадратов Z на число Zs, которое равно n -1 "

Когда я учился в аспирантуре, REML была признана лучшей из всех нарезанных хлебов. Изучив пакет lme4 , я понял, что он не очень хорошо обобщает и, возможно, это не так важно в общей схеме вещей.


Возможно, нет ... интересная математика и статистика.
Пол

Я согласен, Пол. Я думаю, что REML - отличный пример элегантного и творческого решения проблем в статистике. Это определенно используется на практике, и, возможно, это все, на что вы можете надеяться в статистических исследованиях.
Бен Огорек
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.