Вопросы с тегом «sample»

Выборка является подмножеством населения. Статистика в целом связана с использованием выборок, чтобы сделать вывод о параметрах, управляющих большей (возможно, бесконечной) популяцией.

4
Как взять много образцов из 10 из большого списка, без полной замены
У меня есть большой набор данных (20 000 точек данных), из которого я хочу взять повторные выборки из 10 точек данных. Однако, как только я выбрал эти 10 точек данных, я хочу, чтобы они больше не выбирались. Я пытался использовать sampleфункцию, но, похоже, у нее нет возможности сэмплировать без замены …
12 r  sample 

1
Оценить дисперсию населения, если среднее значение известно
Я знаю, что мы используем чтобы оценить дисперсия популяции. Я помню видео из Академии Хана, где указанная интуиция заключалась в том, что наше предполагаемое среднее значение, вероятно, немного отличается от фактического, поэтому расстоянияxi- ˉ x на самом деле будут больше, поэтому мы делим на меньшее (n-1вместоn) получить большее значение, в …
11 variance  sample 

5
Если не Пуассон, то что это за распределение?
У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных: СпектрЖадныйотклонениеКоличество наблюдений0 - 77218,22791+696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 …

1
SurveyMonkey игнорирует тот факт, что вы получаете неслучайный образец?
SurveyMonkey имеет шаги и диаграмму, чтобы вы могли определить, какой размер выборки вам нужен для данного диапазона погрешности или доверительного интервала, исходя из размера вашей популяции. Размер выборки SurveyMonkey Эта диаграмма просто игнорирует тот факт, что вы не получите случайную выборку, поскольку вы получаете только людей, которые потрудились ответить на …

1
Почему доля выборки также не имеет биномиального распределения
В биномиальной установке случайная величина X, которая дает количество успехов, распределяется биномиально. Пропорция выборки может быть рассчитана как где - размер вашей выборки. В моем учебнике говорится, чтоИксNИксN\frac{X}{n}NNn Эта пропорция не имеет биномиального распределения однако, поскольку - это просто масштабированная версия биномиально распределенной случайной величины , разве она не должна …

2
Оценка размера пересечения нескольких наборов с использованием выборки из одного набора
Я работаю над алгоритмом, который должен рассчитать размер набора, сгенерированного пересечениями не менее 2 наборов. Более конкретно: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Пересекающиеся наборы генерируются запросами SQL, и, чтобы поддерживать скорость, я заблаговременно получаю счет каждого запроса, затем беру набор с наименьшим счетом ( …
10 error  sample 

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Как определить, что такое «образец»?
Если я дам вам три числа, которые независимо и одинаково взяты из стандартного нормального распределения, то я дал вам три образца или один образец? Если ответ - один из примеров, то есть ли краткое название того, что я дал вам три?

2
Рассчитать кривую ROC для данных
Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

4
Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки
Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.