Используется ли среднеквадратическая ошибка для оценки относительного превосходства одного оценщика над другим?


13

Предположим, у нас есть два оценщика и для некоторого параметра . Чтобы определить, какая оценка «лучше», мы смотрим на MSE (среднеквадратическая ошибка)? Другими словами, мы смотрим на где - это смещение оценки, а - дисперсия оценки? Какой MSE больше, тем хуже оценка?α 2 x M S E = β 2 + σ 2 β σ 2α1α2Икс

MSЕзнак равноβ2+σ2
βσ2

Ответы:


10

Если два конкурирующих оценщики thetas ; 1 и & thetas 2 , или нет M S E ( thetas ; 1 ) < M S E ( θ 2 ) говорит, что θ 1 является лучшей оценкой полностью зависит от вашего определения "Лучший". Например, если вы сравниваете непредвзятые оценки и «лучше» вы имеете в виду имеет меньшую дисперсию , то, да, это будет означать , что & thetas 1 лучше. M S Eθ^1θ^2

MSЕ(θ^1)<MSЕ(θ^2)
θ^1θ^1MSЕявляется популярным критерием из-за его связи с наименьшими квадратами и гауссовским логарифмическим правдоподобием, но, как и многие статистические критерии, следует избегать слепого использования в качестве меры качества оценки, не обращая внимания на приложение.MSЕ

Существуют определенные ситуации, когда выбор оценщика для минимизации может быть не особенно разумным. На ум приходят два сценария:MSЕ

  • Если в наборе данных есть очень большие выбросы, то они могут оказать сильное влияние на MSE, и, таким образом, такие выбросы могут оказать чрезмерное влияние на оценку, которая минимизирует MSE. В таких ситуациях тот факт, что оценщик минимизирует MSE, на самом деле мало о чем говорит, поскольку, если вы удалили выбросы, вы можете получить совершенно иную оценку. В этом смысле MSE не является «устойчивым» к выбросам. В контексте регрессии этот факт мотивировал М-оценщик Хьюбера (который я обсуждаю в этом ответе), который минимизирует другую функцию критерия (то есть смесь между квадратом и абсолютной ошибкой) при наличии длиннохвостых ошибок ,

  • Если вы оцениваете ограниченный параметр, сравнение s может быть неуместным, так как в этом случае он по-разному оценивается и недооценивается. Например, предположим, что вы оцениваете дисперсию σ 2 . Затем, если вы сознательно недооцениваете величину, ваше M S E может быть не более σ 4 , тогда как переоценка может привести к значению M S E, которое значительно превышает σ 4 , возможно, даже на неограниченную величину.MSЕσ2MSЕσ4MSЕσ4

Чтобы сделать эти недостатки более ясными, я приведу конкретный пример того, когда из-за этих проблем может не подходить для оценки качества оценки.MSЕ

Предположим , у вас есть образец из распределения t с ν > 2 степенями свободы, и мы пытаемся оценить дисперсию, которая равна ν / ( ν - 2 ) . Рассмотрим два конкурирующих оценок: & thetas ; 1 : т ч е у п б я в ы е D сек м р л е об в г IИкс1,,,,,ИксNTν>2ν/(ν-2) и θ 2 = 0 , т е г г д л е с с о е т ч е д т Очевидно , М С Е ( θ 2 ) = ν 2

θ^1:Tчасе UNбяasеd saмпLе vaряaNсе
θ^2знак равно0, реграммaрdLеss ое Tчасе daTa
, и это фактчтоМСЕ( θ 1)={ ∞ , если  N , & le ; 4 N , 2MSЕ(θ^2)знак равноν2(ν-2)2который может быть получен с использованиемфакта, обсуждаемого в этой теме,исвойствt-распределения. Таким образом, наивный оценщик превосходит по показателямMSEнезависимо от размера выборки всякий раз, когдаν<4, что довольно смущает. Это также превосходит, когда(2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
tMSEν<4но это относится только к очень небольшим размерам выборки. Выше происходит изза длинный хвостатые природытраспределения с малыми степенями свободы, что делает θ 2склонен к очень большим значениям и томуМСЙштрафует сильно к завышению,то время как θ -не имеет эту проблему.(2n1+6n(ν4))>1tθ^2MSEθ^1

MSEMSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

S(θ^1)=


(+1) Хорошая дискуссия. Чтобы быть справедливым, вероятно, следует указать, что аналогичные аргументы могут быть сделаны для и против других критериев (других функций потерь).
MånsT

2
Обычно оценивают оценщиков, рассматривая их функции риска, которые отображают ожидаемые потери в зависимости от параметров. Здесь, фиксируя параметры, вы могли произвести вводящий в заблуждение анализ. В конце концов, это всегда тот случай, когда глупая (постоянная, игнорирующая данные) оценка может привести к очень низким ожидаемым потерям: просто установите его равным правильному параметру! Это заставляет меня задуматься о том, что симуляция действительно показала здесь.
whuber

@whuber, я изменил этот ответ, чтобы привести пример аналитически, что делает его, возможно, более ясным. Я также предложил альтернативную функцию потерь, которая может быть более подходящей.
Макро

+1 Гораздо лучше и очень интересно! Я думаю, что «сбивающий с толку» аспект может быть в глазах смотрящего. Любой, кто склонен придерживаться Байеса доνэтот результат должен быть отрезвляющим. Кроме того, для некоторых из нас выбор потери является основным и должен заменить большинство других соображений: ценности и цели вашего клиента определяют потери, и это помогает вам выбрать правильную процедуру оценки. Любить процедуру оценки, а затем предлагать потерю, чтобы заставить эту процедуру работать, является полезным упражнением, но, конечно, ее нельзя воспринимать как парадигму того, как решаются статистические проблемы!
whuber

2

MSE соответствует риску (ожидаемой потере) для функции потери квадрата ошибки L(αя)знак равно(αя-α)2, Функция потери квадрата ошибки очень популярна, но только один из многих. Процедура, которую вы описываете, является правильной при квадратичной потере ошибок; вопрос в том, подходит ли это в вашей проблеме или нет.


2

Потому что функция е(Икс)знак равноИкс2дифференцируемо, это облегчает поиск минимального MSE как с теоретической, так и с числовой точки зрения. Например, в обычных наименьших квадратах вы можете решить экспансию для подобранного наклона и пересечения. С числовой точки зрения у вас есть более эффективные решатели, когда у вас также есть производная.

По моему мнению, среднеквадратическая ошибка обычно перевешивает выбросы. Вот почему часто более надежно использовать среднюю абсолютную ошибку, т.е. использоватье(Икс)знак равно|Икс|как ваша функция ошибки. Однако, поскольку он недифференцируем, он затрудняет работу с решениями.

MSE, вероятно, является хорошим выбором, если условия ошибок обычно распространяются. Если они имеют более толстые хвосты, предпочтительнее более надежный выбор, такой как абсолютное значение.


0

В Case & Berger Statistical Inference 2nd edition Page 332 говорится, что MSE в равной степени наказывает за переоценку и недооценку, что хорошо в случае местоположения. Однако в случае масштаба 0 является естественной нижней границей, поэтому задача оценки не является симметричной. Использование MSE в этом случае имеет тенденцию прощать недооценки.

Возможно, вы захотите проверить, какой оценщик удовлетворяет свойствам UMVUE, что означает использование нижней границы Крамера-Рао. Страница 341.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.