Вопросы с тегом «sample»

Выборка является подмножеством населения. Статистика в целом связана с использованием выборок, чтобы сделать вывод о параметрах, управляющих большей (возможно, бесконечной) популяцией.

25
Нахождение свободно доступных образцов данных
Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его …


3
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

3
Что если ваша случайная выборка явно не репрезентативна?
Что делать, если вы берете случайную выборку и видите, что она явно не репрезентативна, как в недавнем вопросе . Например, что, если предполагается, что распределение населения симметрично относительно 0, а выборка, которую вы выбираете случайным образом, имеет несбалансированные положительные и отрицательные наблюдения, а разбаланс является статистически значимым, что вас оставляет? …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Могут ли степени свободы быть нецелым числом?
Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Как выяснить, какой тип распределения представляет эти данные о времени отклика ping?
Я пробовал реальный процесс, время пинга в сети. «Время прохождения туда-обратно» измеряется в миллисекундах. Результаты представлены на гистограмме: Время пинга имеет минимальное значение, но длинный верхний хвост. Я хочу знать, что это за статистическое распределение, и как оценить его параметры. Несмотря на то, что дистрибутив не является нормальным, я все …


3
Bootstrap: проблема переоснащения
Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function и затем получение образцов начальной загрузки путем моделирования наблюдений из оцененных cdf B раз подряд.nnnBBB Если я …


4
Является ли какое-либо количественное свойство населения «параметром»?
Я относительно знаком с различием между терминами статистика и параметр. Я вижу статистику как значение, полученное от применения функции к образцу данных. Однако большинство примеров параметров относятся к определению параметрического распределения. Типичным примером является среднее значение и стандартное отклонение для параметризации нормального распределения или коэффициентов и дисперсии ошибок для параметризации …

1
Большая выборка асимптотик / теория - зачем заботиться?
Я надеюсь, что этот вопрос не будет помечен как «слишком общий», и надеюсь, что начнется обсуждение, которое принесет пользу всем. В статистике мы тратим много времени на изучение больших выборочных теорий. Мы глубоко заинтересованы в оценке асимптотических свойств наших оценок, в том числе в отношении того, являются ли они асимптотически …

1
LARS против координатного спуска для лассо
Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

2
В чем разница между случайной величиной и случайной выборкой?
Эти два выражения сильно смутили меня, когда я изучал статистику. Мне кажется, что это совершенно разные вещи. Случайная выборка является случайным образом взять пробу из популяции, в то время как случайная величина , как функция , которая отображает множество всех возможных результатов эксперимента с реальным числом. Однако, скажем, если я …

2
Соревнования Kaggle просто выиграны случайно?
Соревнования Kaggle определяют итоговые рейтинги на основе проведенного тестового набора. Выдержанный тестовый набор является образцом; он не может быть репрезентативным для моделируемого населения. Поскольку каждое представление похоже на гипотезу, алгоритм, выигравший соревнование, может, совершенно случайно, в конечном итоге соответствовать тестовому набору лучше, чем другие. Другими словами, если бы был выбран …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.