Могут ли степени свободы быть нецелым числом?


27

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26.6

> library(gam)
> summary(gam(mpg~lo(wt),data=mtcars))

Call: gam(formula = mpg ~ lo(wt), data = mtcars)
Deviance Residuals:
    Min      1Q  Median      3Q     Max 
-4.1470 -1.6217 -0.8971  1.2445  6.0516 

(Dispersion Parameter for gaussian family taken to be 6.6717)

    Null Deviance: 1126.047 on 31 degrees of freedom
Residual Deviance: 177.4662 on 26.6 degrees of freedom
AIC: 158.4294 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
            Df Sum Sq Mean Sq F value    Pr(>F)    
lo(wt)     1.0 847.73  847.73  127.06 1.239e-11 ***
Residuals 26.6 177.47    6.67                      
r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
В общем, да, df может быть числом с плавающей запятой.
Дэвид Лейн

6
Вы, вероятно, хотите спросить о действительном числе (или не целом числе); число с плавающей запятой - это компьютерная концепция (способ аппроксимации действительных чисел), которая относится к реализации, но вы действительно спрашиваете об основополагающей математической идее (и поэтому лучше задать математический вопрос). Часто встречаются ситуации, когда (по той или иной причине не всегда хорошо) величина, которая концептуально является целым числом, тем не менее в реализации сохраняется как число с плавающей запятой. Я предлагаю «Может ли модель иметь нецелые степени свободы?» для названия.
Glen_b

Ответы:


40

kk+1

Мы обычно думаем о степенях свободы как о количестве свободных параметров, но есть ситуации, когда параметры не являются полностью свободными, и их тогда может быть трудно подсчитать. Это может произойти, например, при сглаживании / регуляризации.

Примеры локально-взвешенных методов регрессии / ядра и сглаживания сплайнов являются примерами такой ситуации - общее количество свободных параметров не может быть легко подсчитано путем добавления предикторов, поэтому необходимо более общее представление о степенях свободы.

gamy^=Aytr(A)tr(AAT)tr(2AAAT)tr(A)XA

tr(A)

iy^iyitr(A)y^y^iyi

Для моделей, подобных установленным gam, эти различные меры обычно не являются целочисленными.

(Я настоятельно рекомендую прочитать обсуждение этих ссылок по этому вопросу, хотя в некоторых ситуациях история может стать более сложной. См., Например, [4])

[1] Хасти Т. и Тибширани Р. (1990),
Обобщенные аддитивные модели,
Лондон: Чепмен и Холл.

[2] Хасти Т., Тибширани Р. и Фридман Дж. (2009),
Элементы статистического обучения: сбор данных, вывод и прогнозирование , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/

[3] Ye, J. (1998),
«Об измерении и коррекции эффектов интеллектуального анализа данных и выбора моделей»,
журнал Американской статистической ассоциации , Vol. 93, № 441, стр. 120-131.

[4] Янсон Л., Фитиан В. и Хасти Т. (2013),
«Эффективные степени свободы: ошибочная метафора»
https://arxiv.org/abs/1312.7851


7
Это не относится к этому случаю, но t-критерий Уэлча для двух выборок, когда дисперсии неравны, может иметь нецелое число степеней свободы.
Майкл Р. Черник

5
Как и эпсилон-скорректированный df при повторных измерениях ANOVA.
Дэвид Лейн

2
Еще одна ссылка - statweb.stanford.edu/~tibs/ElemStatLearn/printings/… раздел 5.4.1 Степени свободы и более гладкие матрицы
Адриан

1
@ Адриан спасибо; Я размышлял, стоит ли добавлять только эту ссылку (и, в частности, упомянуть ли в разделе, указанном вами, eqn 5.16). Я пришел к выводу, что это хорошая идея, чтобы добавить его.
Glen_b
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.