Как понять степени свободы?


257

Из Википедии есть три интерпретации степеней свободы статистики:

В статистике количество степеней свободы - это число значений в окончательном расчете статистики, которые можно изменять .

Оценки статистических параметров могут основываться на разных объемах информации или данных. Количество независимых частей информации, которые входят в оценку параметра, называют степенями свободы (df). Как правило, степени свободы оценки параметра равны количеству независимых оценок, которые входят в оценку, за вычетом количества параметров, используемых в качестве промежуточных шагов при оценке самого параметра (который в выборочной дисперсии равен один, поскольку выборочное среднее значение является единственным промежуточным этапом).

Математически, степени свободы - это размер области случайного вектора или, по сути, количество «свободных» компонентов: сколько компонентов необходимо знать, прежде чем вектор будет полностью определен .

Смелые слова - это то, что я не совсем понимаю. Если возможно, некоторые математические формулировки помогут прояснить концепцию.

Также согласуются ли эти три интерпретации друг с другом?


Проверьте это объяснение
Джордж Dontas

3
Также см. Этот вопрос "Каковы степени свободы?"
Jeromy Anglim

Ответы:


242

Это тонкий вопрос. Требуется вдумчивый человек, чтобы не понимать эти цитаты! Хотя они наводят на размышления, оказывается, что ни один из них не является точным или в целом правильным. У меня нет времени (и здесь нет места), чтобы дать полное изложение, но я хотел бы поделиться одним подходом и пониманием, которое он предлагает.

Где возникает понятие степеней свободы (DF)? Контексты, в которых это найдено в элементарных обработках:

  • Т-критерий Стьюдента и его варианты , такие как решения Welch или Саттервейта к проблеме Беренса-Фишера (где две популяции имеют различные отклонения).

  • Распределение хи-квадрат (определяется как сумма квадратов независимых стандартных нормалей), которое влияет на выборочное распределение дисперсии.

  • F-тест (соотношения предполагаемых отклонений).

  • Chi-квадрат тест , содержащий его применение в (а) тестировании независимости в таблицах сопряженности и (б) тестирование на доброту приступа распределительных оценок.

По духу, эти тесты охватывают диапазон от точных (t-критерий Стьюдента и F-критерий для нормальных вариаций) до хороших приближений (t-критерий Стьюдента и Уэлч / Саттервейт для не слишком сильно искаженных данных ) на основе асимптотических приближений (критерий хи-квадрат). Интересным аспектом некоторых из них является появление нецелых «степеней свободы» (тесты Уэлча / Саттерсвэйта и, как мы увидим, критерий хи-квадрат). Это представляет особый интерес, потому что это первый намек на то, что DF - это не то, что от него требуется.

Мы можем сразу решить некоторые из претензий в вопросе. Поскольку «окончательное вычисление статистики» не является четко определенным (оно, очевидно, зависит от того, какой алгоритм используется для расчета), оно может быть не более чем смутным предложением и не заслуживает дальнейшей критики. Точно так же ни «количество независимых оценок, которые входят в оценку», ни «количество параметров, используемых в качестве промежуточных шагов», не являются четко определенными.

С «независимыми частями информации, которые входят в [оценку]» , трудно иметь дело, потому что есть два разных, но тесно связанных между собой смысла «независимости», которые могут быть здесь уместны. Одним из них является независимость от случайных величин; другая - это функциональная независимость. В качестве примера последнего предположим, что мы собираем морфометрические измерения предметов - скажем, для простоты, три стороны длины , Y , Z , площади поверхности S = 2 ( X Y + Y Z + Z X ) и объемы V = X Y ZXYZS=2(XY+YZ+ZX)V=XYZиз набора деревянных блоков. Три стороны длины могут рассматриваться как независимые случайные величины, но все пять переменных являются зависимыми RV. Эти пять также функционально зависимы, потому что кодоменне «домен»!) Векторной случайной величины прослеживает трехмерное многообразие в R 5 . (Таким образом, локально в любой точке ω R 5 существуют две функции f ω и g ω, для которых f ω(X,Y,Z,S,V)R5ωR5fωgω и g ω ( X ( ψ ) , , V ( ψ ) ) = 0 для точек ψ «около» ω и производных функций f и g, оцененных при ω являются линейно независимыми.) Однако - вот кикер - для многих вероятностных мер на блоках, подмножествах переменных, таких как ( X ,fω(X(ψ),,V(ψ))=0gω(X(ψ),,V(ψ))=0ψωfgω являютсязависимымикак случайные величиныно функциональнонезависимы.(X,S,V)

Получив предупреждение об этих потенциальных двусмысленностях, давайте проведем тест на пригодность по критерию хи-квадрат для экзамена , потому что (а) это просто, (б) это одна из распространенных ситуаций, когда людям действительно нужно знать о ФР, чтобы получить p-значение right и (c) оно часто используется неправильно. Вот краткий обзор наименее противоречивого применения этого теста:

  • У вас есть коллекция значений данных , рассматриваемая как выборка совокупности.(x1,,xn)

  • Вы оценили некоторые параметры распределения. Например, вы оценили среднее значение θ 1 и стандартное отклонение θ 2 = θ p нормального распределения, предположив, что популяция распределена нормально, но не зная (до получения данных), какими могут быть θ 1 или θ 2 .θ1,,θpθ1θ2=θpθ1θ2

  • Заранее вы создали набор из «корзин» для данных. (Это может быть проблематично, когда ячейки определяются данными, даже если это часто делается.) Используя эти ячейки, данные сводятся к набору счетчиков в каждой ячейке. Предвидя, какие могут быть истинные значения ( θ ) , вы упорядочили его так, чтобы (надеюсь) каждый бин получал примерно одинаковое количество. (Биннинг с равной вероятностью гарантирует, что распределение хи-квадрат действительно является хорошим приближением к истинному распределению статистики хи-квадрат, которая будет описана.)k(θ)

  • У вас есть много данных - достаточно, чтобы убедиться, что почти во всех корзинах должно быть 5 или больше. (Это, мы надеемся, позволит распределению выборки статистики адекватно аппроксимироваться некоторым распределением χ 2. )χ2χ2

Используя оценки параметров, вы можете вычислить ожидаемое количество в каждом бине. Хи-квадрат статистика является суммой отношений

(observedexpected)2expected.

Это, как говорят нам многие авторитеты, должно иметь (в очень близком приближении) распределение хи-квадрат. Но есть целая семья таких распределений. Они различаются по параметру часто называемому «степенями свободы». Стандартное рассуждение о том, как определить ν, выглядит следующим образомνν

У меня есть отсчетов. Это k частей данных. Но между ними есть ( функциональные ) отношения. Для начала я заранее знаю, что сумма отсчетов должна равняться n . Это одно отношение. Я оценил два (или p , в общем) параметра из данных. Это два (или p ) дополнительных отношения, что дает p + 1 общее количество отношений. Предполагая, что они (параметры) все ( функционально ) независимы, что оставляет только k - p - 1 ( функционально ) независимых «степеней свободы»: это значение, которое нужно использовать дляkknppp+1kp1 .ν

Проблема с этим рассуждением (который является своего рода расчетом, на который намекают цитаты в вопросе) состоит в том, что это неправильно, за исключением случаев, когда выполняются некоторые специальные дополнительные условия. Более того, эти условия не имеют ничего общего с независимостью (функциональной или статистической), количеством «компонентов» данных, количеством параметров или чем-либо еще, упомянутым в исходном вопросе.

Позвольте мне показать вам пример. (Чтобы сделать это как можно более понятным, я использую небольшое количество бинов, но это не обязательно.) Давайте сгенерируем 20 независимых и одинаково распределенных (iid) стандартных нормальных переменных и оценим их среднее и стандартное отклонение с помощью обычных формул ( среднее = сумма / количество и т . д.). Чтобы проверить правильность подгонки, создайте четыре ячейки с точками среза в квартилях стандартной нормали: -0,675, 0, +0,657 и используйте счетчики для получения статистики хи-квадрат. Повторите, как позволяет терпение; Я успел сделать 10 000 повторений.

Стандартная мудрость относительно DF гласит, что у нас есть 4 корзины и 1 + 2 = 3 ограничения, подразумевая, что распределение этих 10 000 статистик хи-квадрат должно следовать распределению хи-квадрат с 1 DF. Вот гистограмма:

фигура 1

Темно-синие линии представляют собой график распределения как мы думали, сработает, а темно-красные линии показывают распределение χ 2 ( 2 ) (что было бы хорошим предположением, если бы кто-то сказать, что ν = 1 неверно). Ни один не соответствует данным.χ2(1)χ2(2)ν=1

Вы можете ожидать, что проблема связана с небольшим размером наборов данных ( = 20) или, возможно, небольшим размером количества бинов. Однако проблема сохраняется даже при очень больших наборах данных и большем числе элементов разрешения: это не просто неспособность достичь асимптотического приближения.n

Все пошло не так, потому что я нарушил два требования критерия хи-квадрат:

  1. Вы должны использовать оценку максимального правдоподобия параметров. (На практике это требование может быть слегка нарушено.)

  2. Вы должны основывать эту оценку на счетах, а не на фактических данных! (Это очень важно .)

фигура 2

Красная гистограмма показывает статистику хи-квадрат для 10 000 отдельных итераций, следуя этим требованиям. Конечно же, он явно следует кривой (с приемлемой величиной ошибки выборки), как мы изначально надеялись.χ2(1)

Смысл этого сравнения - что я надеюсь , что вы уже видели приход - это то , что правильный DF использовать для вычисления р-значений зависит от многих вещей , других , чем размеры коллекторов, эпизоды функциональных отношений, или геометрия нормальных случайных величин , Существует тонкое, деликатное взаимодействие между определенными функциональными зависимостями, которые обнаруживаются в математических отношениях между величинами, и распределениями данных, их статистикой и оценками, сформированными из них. Соответственно, не может быть случая, чтобы DF адекватно объяснимо с точки зрения геометрии многомерных нормальных распределений, или с точки зрения функциональной независимости, или в виде количества параметров, или чего-либо еще такого рода.

Таким образом, мы видим, что «степени свободы» - это просто эвристика, которая указывает, каким должно быть выборочное распределение статистики (t, хи-квадрат или F), но оно не является диспозитивным. Вера в то, что это диспозитивно, ведет к вопиющим ошибкам. (Например, наибольшим успехом в Google при поиске «добротности хи-квадрат» является веб-страница из университета Лиги плюща, в которой большая часть этого совершенно неверна! В частности, симуляция, основанная на его инструкциях, показывает, что хи-квадрат значение, которое он рекомендует, поскольку наличие 7 DF на самом деле имеет 9 DF.)

С этим более тонким пониманием, стоит перечитать соответствующую статью в Википедии: в ее деталях все правильно, указав, где работает эвристика DF и где она либо приближенная, либо не применяется вообще.


Хороший отчет о явлении, показанном здесь (неожиданно высокий DF в тестах GOF в хи-квадрат), появляется во втором томе Kendall & Stuart, 5-е издание . Я благодарен за предоставленную этим вопросом возможность привести меня к этому замечательному тексту, который полон таких полезных анализов.


Изменить (январь 2017)

Вот Rкод для создания фигуры, следующей за «Стандартной мудростью о ДФ ...»

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
Это удивительный ответ. Вы выигрываете в интернете для этого.
Адам

6
@caracal: как вы знаете, методы ML для исходных данных являются рутинными и широко распространенными: например, для нормального распределения MLE для является средним значением выборки, а MLE для σ является квадратным корнем стандартного отклонения выборки ( без обычная коррекция смещения). Чтобы получить оценки, основанные на подсчетах, я вычислил функцию правдоподобия для подсчетов - для этого необходимо вычислить значения CDF в контрольных точках, взять их журналы, умножить на подсчеты и сложить - и оптимизировать ее с помощью универсального программного обеспечения для оптимизации. μσ
whuber

4
@caracal Возможно, вам это больше не нужно, но пример Rкода для подгонки ML связанных данных теперь появляется в связанном вопросе: stats.stackexchange.com/a/34894 .
whuber

1
«Проблема с этим рассуждением (который является своего рода расчетом, на который намекают цитаты в вопросе) заключается в том, что это неправильно, за исключением случаев, когда выполняются некоторые дополнительные условия». Сейчас я (почти) прошел два семестра последовательности линейных моделей, и я понимаю, что степени свободы - это ранг матрицы в «середине» квадратичной формы. Что это за «дополнительные условия»?
Кларнетист

4
@Clarinetist Принцип моего ответа состоит в том, чтобы предположить, что то, чему вас учили, основано на смешении двух понятий DF. Хотя эта путаница не создает проблем для стандартных моделей нормальной теории наименьших квадратов, она приводит к ошибкам даже в простых, распространенных обстоятельствах, таких как анализ таблиц сопряженности. Этот ранг матрицы дает функционал DF. В наименьших квадратов линейной модели это происходит , чтобы дать правильный DF для определенных видов испытаний, таких как F тестов. Для критерия хи-квадрат особые условия перечислены ниже в ответе в виде пунктов (1) и (2).
whuber

74

Или просто: количество элементов в числовом массиве, которое вы можете изменить, чтобы значение статистики оставалось неизменным.

# for instance if:
x + y + z = 10

Вы можете изменить, например, х и у в случайном порядке, но вы не можете изменить г (можно, но не в случайном порядке, поэтому вы не свободны , чтобы изменить его - см комментарий Харви), потому что вы измените значение статистики (Σ = 10). Итак, в этом случае df = 2.


19
Не совсем правильно говорить «ты не можешь изменить z». На самом деле, вы должны изменить z, чтобы сделать сумму равной 10. Но у вас нет выбора (нет свободы) в отношении того, к чему она изменяется. Вы можете изменить любые два значения, но не третье.
Харви Мотульский

53

Эта концепция совсем не трудно сделать математически точной, если немного разбираться в мерной евклидовой геометрии, подпространствах и ортогональных проекциях.n

Если - ортогональная проекция из R n в p -мерное подпространство L и x - произвольный n- вектор, то P x находится в LPRnpLxnPxL , и P x ортогональны, а x - P x L находится в ортогональное дополнение L . Размерность этого ортогонального дополнения, L , является п - р . ЕслиxPxPxxPxLLLnp может свободно изменяться в n- мерном пространстве, тогда x - P x может свободно изменяться в n - p- мерном пространстве. По этой причине мы говорим, что x - P x имеет n - p степеней свободы.xnxPxnpxPxnp

Эти соображения важны для статистики, потому что если X - мерный случайный вектор, а L - модель его среднего значения, то есть средний вектор E ( X ) находится в L , то мы будем называть X - P X вектором невязок. и мы используем остатки для оценки дисперсии. Вектор невязок имеет n - p степеней свободы, то есть он ограничен подпространством размерности n - p .nLE(X)LXPXnpnp

Если координаты независимы и нормально распределены с одинаковой дисперсией σ 2, тоXσ2

  • Векторы и X - P X независимы.PXXPX
  • Если то распределение квадрата нормы вектора невязок | | X - P X | | 2 представляет собой χ 2 -распределение с масштабным параметром σ 2 и другим параметром, который оказывается степенями свободы n - p .E(X)L||XPX||2χ2σ2np

Эскиз доказательства этих фактов приведен ниже. Эти два результата являются центральными для дальнейшего развития статистической теории, основанной на нормальном распределении. Отметим также, что именно поэтому -распределение имеет параметризацию, которой оно обладает. Это также Γ -распределение с масштабным параметром 2 σ 2 и параметром формы ( n - p ) / 2 , но в контексте выше естественно параметризовать в терминах степеней свободы.χ2Γ2σ2(np)/2

Я должен признать, что я не нахожу ни одного из пунктов, процитированных из статьи Википедии, особенно поучительным, но они также не являются действительно неправильными или противоречивыми. Они говорят неточно и в общем смысле, что когда мы вычисляем оценку параметра дисперсии, но делаем это на основе невязок, мы основываем вычисления на векторе, который может свободно изменяться только в пространстве размерности .np

Помимо теории линейных нормальных моделей, использование понятия степеней свободы может сбивать с толку. Это, например, используется в параметризации -распределения ли или нет есть ссылка на все , что может иметь какие - либо степени свободы. Когда мы рассматриваем статистический анализ категориальных данных, может возникнуть некоторая путаница относительно того, следует ли считать «независимые части» до или после табулирования. Кроме того, для ограничений, даже для нормальных моделей, которые не являются подпространственными ограничениями, не очевидно, как расширить понятие степеней свободы. Различные предложения существуют обычно под названием эффективных степеней свободы.χ2

Прежде чем рассматривать любые другие применения и значения степеней свободы, я настоятельно рекомендую убедиться в этом в контексте линейных нормальных моделей. Ссылка, касающаяся этого модельного класса, - «Первый курс по теории линейных моделей» , и в предисловии к этой книге есть дополнительные ссылки на другие классические книги по линейным моделям.

Доказательство приведенных выше результатов. Пусть , заметьте, что матрица дисперсий σ 2 I, и выберите ортонормированный базис z 1 , , z p из L и ортонормированный базис z p + 1 , , z n из L . Тогда z 1 , , z n является ортонормированным базисом R n . Пусть ~ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~ обозначим -вектор коэффициентов X в этом базисе, то есть ˜ X i = z T i XnX Это также можно записать в виде ˜ X = Z T X, где Z - ортогональная матрица с. Это следует из общих результатов линейного преобразования нормального распределения. Базис был выбран таким образом, чтобы коэффициенты P X были ˜ X i для i = 1 , , p , а коэффициенты X - P X были ˜ X

X~i=ziTX.
X~=ZTXZ в столбцах. Тогда мы должны использовать, что ˜ X имеет нормальное распределение со средним Z T ξ и, поскольку Z ортогональна, матрица дисперсий σ 2 IziX~ZTξZσ2IPXX~ii=1,,pXPX для i = p + 1 , , n . Поскольку коэффициенты некоррелированы и совместно нормальны, они независимы, и это означает, что P X = p iX~ii=p+1,,n и X-PX= n i = p + 1 ˜ X izi независимы. Кроме того, | | X-PX| | 2= n i = p + 1 ˜ X 2 i . ЕслиξL,тоE( ˜ X i
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL для i = p + 1 , , n, потому что тогда z iE(X~i)=ziTξ=0i=p+1,,n и, следовательно, z iξ . В этом случае | |ziLziξ - сумма n - p независимых N ( 0 , σ 2 )||XPX||2npN(0,σ2)-распределенные случайные величины, распределение которых по определению является -распределением с масштабным параметром σ 2 и n - p степеней свободы.χ2σ2np

NRH, спасибо! (1) Почему должен быть внутри L ? (2) Почему P X и X - P X независимы? (3) Определен ли dof в контексте случайных величин из dof в его детерминированном случае? Например, является причиной для | |E(X)LPXXPX имеет dof n - p, потому что это правда, когда X является детерминированной переменной, а не случайной величиной? (4) Существуют ли ссылки (книги, статьи или ссылки), которые придерживаются такого же / сходного мнения, как и у вас?||XPX||2npX
Тим

@Tim, иPX независимы, так как они нормальны и некоррелированы. XPX
mpiktas

@ Тим, я немного перефразировал ответ и дал подтверждение заявленных результатов. Среднее значение должно быть в чтобы доказать результат о хL -распределении. Это модельное предположение. В литературе вы должны искать линейные нормальные модели или общие линейные модели, но сейчас я могу вспомнить только некоторые старые, неопубликованные конспекты лекций. Я посмотрю, смогу ли я найти подходящую ссылку. χ2
NRH

Прекрасный ответ. Спасибо за понимание. Один вопрос: я потерял то, что вы имели в виду под фразой «средний вектор находится в L ». Вы можете объяснить? Вы пытаетесь определить E ? определить L ? что-то другое? Может быть, это предложение пытается сделать слишком много или быть слишком кратким для меня. Можете ли вы уточнить, каково определение E в контексте, который вы упоминаете: это просто E ( x 1 , x 2 , EXLELE ? Можете ли вы уточнить, что такое L в этом контексте (нормальных координат iid)? Это просто L = R ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW - оператор ожидания. Таким образом , E ( X ) является вектором покоординатных ожиданий X . Подпространство L является любым p -мерным подпространством в R n . Это пространство из n- векторов и, конечно, неEE(X)XLpRnn , но вполне может быть одномерным. Самый простой пример, возможно, когда он охватывает 1- вектор с 1 во всех n -координатах. Это модель всех координат X, имеющих одинаковое среднее значение, но возможны многие более сложные модели. R1nX
NRH

30

Это на самом деле не отличается от того, как работает термин «степени свободы» в любой другой области. Например, предположим, что у вас есть четыре переменные: длина, ширина, площадь и периметр прямоугольника. Вы действительно знаете четыре вещи? Нет, потому что есть только две степени свободы. Если вы знаете длину и ширину, вы можете получить площадь и периметр. Если вы знаете длину и площадь, вы можете получить ширину и периметр. Если вы знаете площадь и периметр, вы можете определить длину и ширину (до поворота). Если у вас есть все четыре, вы можете сказать, что система непротиворечива (все переменные согласуются друг с другом), или непоследовательна (ни один прямоугольник не может фактически удовлетворить все условия). Квадрат - это прямоугольник с удаленной степенью свободы;

В статистике все становится более размытым, но идея остается прежней. Если все данные, которые вы используете в качестве входных данных для функции, являются независимыми переменными, то у вас столько же степеней свободы, сколько у вас входных данных. Но если они каким-то образом имеют зависимость, например, если у вас есть n - k входов, вы можете вычислить оставшиеся k, то на самом деле вы получите только n - k степеней свободы. И иногда вам необходимо принять это во внимание, чтобы не убедить себя в том, что данные более надежны или обладают большей прогнозирующей способностью, чем на самом деле, путем подсчета большего количества точек данных, чем у вас есть независимые биты данных.

(Взято из поста на http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 .)

Более того, все три определения почти пытаются дать одно и то же сообщение.


1
В принципе верно, но я обеспокоен тем, что средний абзац может быть прочитан таким образом, чтобы смешивать корреляцию, независимость (от случайных величин) и функциональную независимость (от множества параметров). Различие между корреляцией и независимостью особенно важно для поддержания.
whuber

@whuber: все хорошо сейчас?
Биостат

3
Это правильно, но использование терминов может запутать некоторых людей. Это все еще явно не отличает зависимость случайных величин от функциональной зависимости. Например, две переменные в (невырожденном) двумерном нормальном распределении с ненулевой корреляцией будут зависимыми (как случайные переменные), но они все еще предлагают две степени свободы.
whuber


2
Наш справочный центр дает четкие указания относительно того, как ссылаться на материалы, написанные другими , поэтому я надеюсь, что ОП вернется к этому посту, чтобы предпринять соответствующие действия и участвовать в конструктивном взаимодействии (хотя мы еще не видели его некоторое время).
ЧЛ

19

Мне действительно нравится первое предложение из «Маленького справочника статистической практики». Степени свободы Глава

Один из вопросов, которого инструктор боится больше всего от математически неискушенной аудитории, звучит так: «Что такое степень свободы?»

Я думаю, что вы можете действительно хорошо понять степень свободы, прочитав эту главу.


6
Было бы неплохо объяснить, почему важны степени свободы, а не то, что это такое. Например, показ, что оценка дисперсии с 1 / n смещена, но с использованием 1 / (n-1) дает несмещенную оценку.
Тристан

9

Википедия утверждает , что степень свободы в случайного вектора может быть интерпретирована как размеры векторного подпространства. Я хочу пройти шаг за шагом, в основном, через это как частичный ответ и подробное описание статьи в Википедии.

Предложенный пример - случайный вектор, соответствующий измерениям непрерывной переменной для разных субъектов, выраженный как вектор, идущий от начала координат . Его ортогональная проекция на вектор[abc]T приводит к векторуравные проекции вектора средства измерения ( ˉ х = 1 / 3 ( + б + гр ) ), то есть [ ˉ х[111]Tx¯=1/3(a+b+c), усеянныйвектором1 ,[1[x¯x¯x¯]T1 Эта проекция на подпространство, натянутое на вектор единиц, имеет 1[111]T . Остаточныйвектор (расстояние от среднего) является проекцией наималейших квадратов на ( п - 1 ) nмерного ортогонального дополнение этого подпространства, и имеет п -1degree of freedom(n1) , n - общее число компонент вектора (в нашем случае 3, посколькув примеремы находимся в R 3 ). Это можно просто доказать, получив скалярное произведение [ ˉ xn1degrees of freedomn3R3с разницей между[a[x¯x¯x¯]T и [ ˉ х[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

.

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

И это соотношение распространяется на любую точку на плоскости, ортогональной к . Эта концепция важна для понимания, почему1[x¯x¯x¯]T , шаг при выводе распределение Стьюдента (здесьиздесь).1σ2((X1X¯)2++(XnX¯)2)χn12

Давайте возьмем точку , что соответствует трем наблюдениям. Среднее значение составляет 55 , а вектор [ 55[355080]T55 является нормальным (ортогональной) к плоскости, 55 х + 55 г + 55 г = D . Включение координат точки в уравнение плоскости, D = - 9075 .[555555]T55x+55y+55z=DD=9075

Теперь мы можем выбрать любую другую точку в этой плоскости, и среднее значение ее координат будет равно , геометрически соответствующему ее проекции на вектор [ 155 . Следовательно, для каждого среднего значения (в нашем примере 55 ) мы можем выбрать бесконечное числопаркоординат в R 2 без ограничения ( 2[111]T55R2 ); тем не менее, поскольку плоскость находится в R 3 , третья координата будет определяться уравнением плоскости (или, геометрически, ортогональной проекцией точки на [ 55].2degrees of freedomR3 .[555555]T

Вот представление трех точек (белым цветом), лежащих на плоскости (церулеановый синий), ортогональной к (стрелка): [ 35[555555]T , [ 80[355080]T и [ 90[80805] все они на плоскости (подпространство с 2[901560] ), а затем со средним их составляющих 55 и ортогональной проекцией на [ 12df55 (подпространство с 1[111]T ) равно [ 551df :[555555]T


9

На моих занятиях я использую одну «простую» ситуацию, которая может помочь вам задаться вопросом и, возможно, развить интуитивное чувство того, что может означать степень свободы.

Это своего рода «Forrest Gump» подход к теме, но это стоит попробовать.

Предположим, у вас есть 10 независимых наблюдений которые пришли прямо из нормальной популяции, среднее значение которойX1,X2,,X10N(μ,σ2) и дисперсией σ 2 неизвестны.μσ2

Ваши наблюдения приносят вам собирательно информацию как о и σ 2 . В конце концов, ваши наблюдения имеют тенденцию распространяться вокруг одного центрального значения, которое должно быть близко к фактическому и неизвестному значению μ, а также, если μ очень высокое или очень низкое, вы можете ожидать, что ваши наблюдения соберутся вокруг очень высокое или очень низкое значение соответственно. Один хороший «заменитель» для μ (при отсутствии знания его действительного значения)μσ2μμμ , среднее значение вашего наблюдения. X¯

Кроме того, если ваши наблюдения очень близки друг к другу, это указывает на то, что вы можете ожидать, что должно быть небольшим, и, аналогично, если σ 2 очень велико, то вы можете ожидать увидеть дико отличающиеся значения для X 1σ2σ2X1 до . X10

Если бы вы поставили ставку за неделю, в которой должны быть фактические значения и σ 2 , вам нужно будет выбрать пару значений, в которую вы будете ставить свои деньги. Давайте не будем думать о чем-то столь драматичном, как потеря вашей зарплаты, если вы не угадаете μ правильно до его 200-й десятичной позиции. Нет. Давайте подумаем о некоторой призовой системе, которая чем ближе вы угадываете μ и σ 2, тем больше вы получаете вознаграждение.μσ2μμσ2

В каком - то смысле, ваш лучше, более информированы и более вежливы догадка для значения «ы могут быть ˉ X . В этом смысле, вы оценить , что μ должно быть некоторое значение вокруг ˙ X . Точно так же, одной хорошей «заменой» для σ 2 (пока не требуется) является S 2 , ваша выборочная дисперсия, которая дает хорошую оценку для σ .μX¯μX¯σ2S2σ

Если ваши были уверены , что эти заменители фактические значения и сг 2 , вы, вероятно , будет неправильно, потому что очень тонкий шансы , что вы были так повезло , что ваши наблюдения координируются себя , чтобы вы даром ˉ X равны до μ и S 2 равны σ 2 . Нет, наверное, этого не произошло.μσ2X¯μS2σ2

Но вы можете ошибаться на разных уровнях: от немного неправильного до действительно, действительно, действительно ужасно неправильного (иначе, пока, зарплата; до следующей недели!).

Хорошо, допустим, вы взяли качестве предположения для μ . Рассмотрим только два сценария: S 2 = 2 и S 2 = 20 , 000 , 000 . Во-первых, ваши наблюдения сидят красиво и близко друг к другу. В последнем ваши наблюдения сильно различаются. В каком сценарии вы должны быть более обеспокоены своими потенциальными потерями? Если вы подумали о втором, вы правы. Оценка σ 2 очень разумно меняет вашу уверенность в ставке, поскольку чем больше σ 2 , тем шире вы можете ожидать ˉ XX¯μS2=2S2=20,000,000σ2σ2X¯ варьировать.

μσ2μσ2

Как вы можете это заметить?

μσ

А вот и досадный поворот сюжета этой лизергической истории: он говорит вам об этом после того, как вы сделали ставку. Возможно, чтобы просветить вас, возможно, чтобы подготовить вас, возможно, чтобы насмехаться над вами. Как ты мог знать?

μσ2X¯S2μσ2

μX¯(X¯μ)

Ну, так как , то ˉ X ~ N ( μ , σ 2 / +10 ) (поверьте мне , что если вы будете), а также ( ˉXiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

(Xiμ)/σN(0,1)μσ2

μσ2

[Я предпочитаю думать, что вы думаете о последнем.]

Да, есть!

μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). Каждое из этих единичных распределений хи-квадрат - это один вклад в количество случайной изменчивости, с которым вы должны ожидать, с примерно таким же количеством вклада в сумму.

Ценность каждого вклада математически не равна остальным девяти, но все они имеют одинаковое ожидаемое поведение при распределении. В этом смысле они как-то симметричны.

Каждый из этих хи-квадратов является одним вкладом в сумму чистой случайной изменчивости, которую вы должны ожидать в этой сумме.

Если бы у вас было 100 наблюдений, можно ожидать, что сумма выше будет больше только потому, что у нее будет больше источников .

Каждый из этих «источников вклада» с одинаковым поведением можно назвать степенью свободы .

Теперь сделайте один или два шага назад, перечитайте предыдущие параграфы, если это необходимо, чтобы приспособиться к внезапному появлению желаемой степени свободы .

μσ2

Дело в том, что вы начинаете рассчитывать на поведение этих 10 эквивалентных источников изменчивости. Если бы у вас было 100 наблюдений, у вас было бы 100 независимых источников с одинаковым поведением и строго случайных колебаний к этой сумме.

χ102χ12

μσ2

μσ2

Вещи начинают становиться странными (Хахахаха; только сейчас!), Когда вы восстаете против Бога и пытаетесь ладить сами, не ожидая, что Он покровительствует вам.

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"Это было все даром?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
or, equivalently,
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
Now we get back to those known faces.

The first term has Chi-squared distribution with 10 degrees of freedom and the last term has Chi-squared distribution with one degree of freedom(!).

We simply split a Chi-square with 10 independent equally-behaved sources of variability in two parts, both positive: one part is a Chi-square with one source of variability and the other we can prove (leap of faith? win by W.O.?) to be also a Chi-square with 9 (= 10-1) independent equally-behaved sources of variability, with both parts independent from one another.

This is already a good news, since now we have its distribution.

Alas, it uses σ2, to which we have no access (recall that God is amusing Himself on watching our struggle).

Well,

S2=1101i=110(XiX¯)2,
so
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
therefore
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
which is a distribution that is not the standard normal, but whose density can be derived from the densities of the standard normal and the Chi-squared with (101) degrees of freedom.

One very, very smart guy did that math[^1] in the beginning of 20th century and, as an unintended consequence, he made his boss the absolute world leader in the industry of Stout beer. I am talking about William Sealy Gosset (a.k.a. Student; yes, that Student, from the t distribution) and Saint James's Gate Brewery (a.k.a. Guinness Brewery), of which I am a devout.

[^1]: @whuber told in the comments below that Gosset did not do the math, but guessed instead! I really don't know which feat is more surprising for that time.

That, my dear friend, is the origin of the t distribution with (101) degrees of freedom. The ratio of a standard normal and the squared root of an independent Chi-square divided by its degrees of freedom, which, in an unpredictable turn of tides, wind up describing the expected behavior of the estimation error you undergo when using the sample average X¯ to estimate μ and using S2 to estimate the variability of X¯.

There you go. With an awful lot of technical details grossly swept behind the rug, but not depending solely on God's intervention to dangerously bet your whole paycheck.


1
Спасибо за такие усилия! Признаюсь, я нашел ваше объяснение менее убедительным. Кажется, основатель на этом важном перекрестке: «Каждый из этих« источников взносов »с одинаковым поведением можно назвать степенью свободы». Если бы вы подвели10независимые нормальные изменения, а не10Независимые вариации хи-квадрат, в итоге вы получите ... одну нормальную вариацию. Каким-то образом "степени свободы" полностью поглощены. Очевидно, в хи-квадрат есть что-то особенное, что вы еще не описали. Кстати, Госсет не делал математику: он догадался!
whuber

Thank you very much for your evaluation, @whuber! It's amazing how many typos pop up once you forgot what you wrote. About your evaluation, I intended just to illustrate another way of thinking -- a little bit less mathematical in some sense. Also, I am not grasping fully what you meant with If you had instead summed 10 independent normal variates rather than 10 independent chi-squared variates, you would end up with--one normal variate -- which I guessed to hold your key-point. I will try to elaborate about it, hoping to improve the post.
Марсело Вентура

2

An intuitive explanation of degrees of freedom is that they represent the number of independent pieces of information available in the data for estimating a parameter (i.e., unknown quantity) of interest.

As an example, in a simple linear regression model of the form:

Yi=β0+β1Xi+ϵi,i=1,,n

where the ϵi's represent independent normally distributed error terms with mean 0 and standard deviation σ, we use 1 degree of freedom to estimate the intercept β0 and 1 degree of freedom to estimate the slope β1. Since we started out with n observations and used up 2 degrees of freedom (i.e., two independent pieces of information), we are left with n2 degrees of freedom (i.e., n2 independent pieces of information) available for estimating the error standard deviation σ.


Thanks very much for your edits to my answer, @COOLSerdash!
Isabella Ghement

2

Вы можете видеть степень свободы как количество наблюдений минус количество необходимых отношений между этими наблюдениями. Например, если у вас естьN выборка независимых наблюдений нормального распределения Икс1,...,ИксN, Случайная переменнаяΣязнак равно1N(Икся-Икс¯N)2~ИксN-12, где Икс¯Nзнак равно1NΣязнак равно1NИкся, Степень свободы здесьN-1 потому что они являются одним из необходимых отношений между этими наблюдениями (Икс¯Nзнак равно1NΣязнак равно1NИкся),

Для получения дополнительной информации см. Это


0

Для меня первое объяснение, которое я понял, было:

Если вам известно какое-либо статистическое значение, такое как среднее или вариация, сколько переменных данных вам нужно знать, прежде чем вы сможете узнать значение каждой переменной?

Это то же самое, что сказал aL3xa, но без указания какой-либо точки данных особой роли и близко к третьему случаю, приведенному в ответе. Таким образом, тот же пример будет:

Если вы знаете среднее значение данных, вам нужно знать значения для всех, кроме одной точки данных, чтобы знать значение для всех точек данных.


Переменные -> наблюдения
Ричард Харди

0

Think of it this way. Variances are additive when independent. For example, suppose we are throwing darts at a board and we measure the standard deviations of the x and y displacements from the exact center of the board. Then Vx,y=Vx+Vy. But, Vx=SDx2 if we take the square root of the Vx,y formula, we get the distance formula for orthogonal coordinates, SDx,y=SDx2+SDy2. Now all we have to show is that standard deviation is a representative measure of displacement away from the center of the dart board. Since SDx=i=1n(xix¯)2n1, we have a ready means of discussing df. Note that when n=1, then x1x¯=0 and the ratio i=1n(xix¯)2n100. In other words, there is no deviation to be had between one dart's x-coordinate and itself. The first time we have a deviation is for n=2 and there is only one of them, a duplicate. That duplicate deviation is the squared distance between x1 or x2 and x¯=x1+x22 because x¯ is the midpoint between or average of x1 and x2. In general, for n distances we remove 1 because x¯ is dependent on all n of those distances. Now, n1 represents the degrees of freedom because it normalizes for the number of unique outcomes to make an expected square distance. when divided into the sum of those square distances.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.