В чем разница между стандартизацией и студенчеством?


21

Разве в стандартизации дисперсия известна, а в студенчестве она неизвестна и поэтому оценивается? Спасибо.


2
Вы можете уточнить контекст вашего вопроса. Что за стандартизация, что за студенчество? Для чего используются эти значения?
russellpierce

3
Если вы спрашиваете об остатках , то терминология не ( стандартизирована ) . Разные авторы используют разные имена для одной и той же вещи, а иногда - и, к сожалению, наиболее странно, одно и то же имя для разных вещей. Есть то , что я называю (я) масштабируюсь невязки ( , называемые стандартизированные остатки некоторых авторы); (ii) внутренне стедентифицированные остатки (называемые стандартизированными одними авторами / пакетами, изученные другими); (iii) внешне стандартизировано / удалено удалено(Y-Y^я)/sостатки
Glen_b

Ответы:


20

Краткий обзор. Учитывая модель , где Х представляет п × р , β = ( Х ' х ) - 1 х ' у и у = X & beta ; = Х ( X ' X ) - 1 X ' Y = H y , где H = X ( X Xy=Xβ+εXn×pβ^знак равно(Икс'Икс)-1Икс'YY^знак равноИксβ^знак равноИкс(Икс'Икс)-1Икс'Yзнак равноЧАСY - «шляпная матрица». Невязки е = у - у = у - Н у = ( I - Н ) у Дисперсия населения σ 2 неизвестна и может быть оцененапомощью M S E , среднеквадратической ошибки.ЧАСзнак равноИкс(Икс'Икс)-1Икс'

езнак равноY-Y^знак равноY-ЧАСYзнак равно(я-ЧАС)Y
σ2MSЕ

Полуудуентифицированные остатки определяются как , но, так как дисперсия остатков зависит откаксг2иX, их оценка дисперсии является:

ея*знак равноеяMSЕ
σ2Икс гдечяяэтояй диагональный элемент шляпной матрицы.
В^(ея)знак равноMSЕ(1-часяя)
часяяя

Стандартизированные остатки, также называемые внутренне учтенными остатками :

рязнак равноеяMSЕ(1-часяя)

Однако отдельные и M S E не являются независимыми, поэтомуеяMSЕ не могу иметь т распределения. Процедура затем удалить I - го наблюдения, установите функцию регрессии для остальных п - 1 наблюдений, аполучить новые Y «Sкоторый может быть обозначенряTяN-1Y^. Разница: дя=уя - у я(я) называетсяY^я(я)

dязнак равноYя-Y^я(я)
удаленный остаток . Эквивалентное выражение, которое не требует перерасчета: Обозначая новыеXиMSEчерезX(i)иMSE(i), поскольку они не зависят отi-го наблюдения, получаем: ti=di
dязнак равноея1-часяя
ИксMSЕИкс(я)MSЕ(я)ятя«ы называетсястьюдентизированные(удаленные)остатки, иливнешне стьюдентизированные остатки.
Tязнак равноdяMSЕ(я)1-часяязнак равноеяMSЕ(я)(1-часяя)~TN-п-1
Tя

См. Катнер и др., Прикладные линейные статистические модели , глава 10.

Изменить: я должен сказать, что ответ по rpierce является идеальным. Я думал, что ОП был о стандартизированных и изученных остатках (и деление на стандартное отклонение популяции для получения стандартизированных остатков выглядело странно для меня, конечно), но я ошибался. Я надеюсь, что мой ответ может помочь кому-то, даже если ОТ.


2
... и этот ответ является правильным при определении вычеркнутых остатков из уравнения регрессии. Не существует определения соответствующего стандартизированного остатка. Структура регрессии, кажется, не относится к заданному вопросу. Но это все еще ценный вклад; +1
russellpierce

2
@rpierce, вы правы: как только я прочитал "студенчество", я тоже прочитал "остатки", но они только были у меня в голове ;-) Извините. Я заметил свой недосмотр только после последнего клика.
Серхио

9

sσ

Тем не менее, похоже, что есть некоторые терминологические различия между полями (см. Комментарии к этому ответу). Следовательно, следует соблюдать осторожность при проведении этих различий. Более того, оцененные оценки редко называют таковыми, и обычно можно увидеть «изученные» значения в контексте регрессии. @Sergio предоставляет подробности об этих типах удаленных остатков в своем ответе.


2
Википедия добавляет: «Этот термин также используется для стандартизации статистики более высокой степени с помощью другой статистики той же степени: например, оценка третьего центрального момента будет стандартизирована путем деления на куб образца стандартного отклонения. "
Ник Стаунер

2
Я думаю, что было бы более безопасно сказать, что Studenization - форма доступной стандартизации, если дисперсия населения неизвестна. Это принимает форму технической терминологической точки различия, а не вводящего в заблуждение утверждения о более общем, широко используемом термине.
Ник Стаунер

2
σ

2
@Nick Это звучит как хорошее решение, учитывая, что различные органы власти широко используют «стандартизацию», но никто (AFAIK) никогда не использует «студенчество» в таком широком смысле.
whuber

2
@rpierce Вторая книга (Freedman, Pisani и Purves) существует уже около 40 лет через пять (в основном неизменных) изданий и начала свою жизнь как текст для вводного курса UC Berkeley. Он охватывает практически все мыслимые области, а не только общественное здравоохранение. С другой стороны, одна из его сильных сторон состоит в том, чтобы избегать подчеркивания небольших, бессмысленных или чрезмерно технических различий, поэтому, хотя в целом это хорошее руководство по статистике, на него нельзя полагаться при решении загадочных вопросов.
whuber

3

Я очень поздно отвечаю на этот вопрос !! Но не смог найти ответ на очень простом языке, поэтому скромная попытка ответить на это.

Почему мы занимаемся стандартизацией? Представьте, что у вас есть две модели: одна предсказывает сумасшествие из количества времени, потраченного на изучение статистики, в то время как другая предсказывает лог (сумасшествие) с количеством времени на статистику.

было бы трудно понять, что остатки находятся в разных единицах. Таким образом, мы стандартизируем их (аналогично теории Z-счета)

Стандартизированные остатки: - Когда остатки делятся на оценку стандартного отклонения. В общем, если абсолютное значение> 3, то это вызывает беспокойство.

Мы используем это, чтобы исследовать выбросы в модели.

Studentized Residual: мы используем это для изучения устойчивости модели.

Процесс прост. Мы удаляем отдельный тестовый пример из модели и выясняем новое прогнозируемое значение. Разница между новым значением и исходным наблюдаемым значением может быть стандартизирована путем деления стандартной ошибки. это значение является остаточным

Для получения дополнительной информации об обнаружении статики с помощью R - http://www.statisticshell.com/html/dsur.html


1

Википедия имеет хороший обзор по адресу https://en.wikipedia.org/wiki/Normalization_(statistics). :

Икс-μσ : нормализующие ошибки, когда известны параметры населения. Хорошо работает для групп населения, которые обычно распределяются

Студенческая т-статистика Икс-Икс¯s

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.