В моей голове была некоторая путаница в отношении двух типов оценок популяционного значения коэффициента корреляции Пирсона.
A. Fisher (1915) показал, что для двумерной нормальной популяции эмпирическое значение является отрицательно смещенной оценкой ρ , хотя смещение может быть практически значительным только для небольшого размера выборки ( n < 30 ). Выборка r недооценивает ρ в том смысле, что она ближе к 0, чем ρ . ( За исключением , когда последний находится 0 или ± 1 , потому что тогда г является несмещенной.) Несколько практически несмещенные оценки из р был предложен, лучшим вариантом , вероятно , являетсяOlkin и Пратт (1958) исправлено :
Б. Говорят, что в регрессии наблюдается завышает соответствующую популяцию R-квадрата. Или, с простой регрессией, это значит, что r 2 переоценивает ρ 2 . Основываясь на этом факте, я видел много текстов , говоря , что г является положительно предвзятым по отношению к р , то есть абсолютное значение: г дальше от 0 , чем р (?, Что утверждение верно). В текстах говорится, что это та же проблема, что и переоценка параметра стандартного отклонения по значению его выборки. Существует много формул для «корректировки» наблюдаемого R 2.ближе к своему параметру населения, (1931) Wherry в является наиболее известным (но не самым лучшим). Корень такого скорректированного r 2 adj называется shrunken r :
Присутствуют две разные оценки . Совсем другое: первый раздувает r , второй раздувает r . Как их примирить? Где использовать / сообщить одно, а где - другое?
В частности, может ли быть правдой, что «уменьшенная» оценка тоже (почти) объективна, как и «непредвзятая», но только в другом контексте - в асимметричном контексте регрессии. Ибо, в регрессии OLS мы рассматриваем значения одной стороны (предиктора) как фиксированные, сопровождающие без случайной ошибки от выборки к выборке? (И чтобы добавить здесь, регрессия не нуждается в двумерной нормальности.)