Статистика и большие данные sample

4

Как взять много образцов из 10 из большого списка, без полной замены

У меня есть большой набор данных (20 000 точек данных), из которого я хочу взять повторные выборки из 10 точек данных. Однако, как только я выбрал эти 10 точек данных, я хочу, чтобы они больше не выбирались. Я пытался использовать sampleфункцию, но, похоже, у нее нет возможности сэмплировать без замены …

12 r sample

1

Оценить дисперсию населения, если среднее значение известно

Я знаю, что мы используем чтобы оценить дисперсия популяции. Я помню видео из Академии Хана, где указанная интуиция заключалась в том, что наше предполагаемое среднее значение, вероятно, немного отличается от фактического, поэтому расстоянияxi- ˉ x на самом деле будут больше, поэтому мы делим на меньшее (n-1вместоn) получить большее значение, в …

11 variance sample

5

Если не Пуассон, то что это за распределение?

У меня есть набор данных, содержащий количество действий, совершенных отдельными лицами в течение 7 дней. Конкретные действия не должны иметь отношение к этому вопросу. Вот некоторые описательные статистические данные для набора данных: СпектрЖадныйотклонениеКоличество наблюдений0 - 77218,22791+696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 …

11 r distributions poisson-distribution mean sample

1

SurveyMonkey игнорирует тот факт, что вы получаете неслучайный образец?

SurveyMonkey имеет шаги и диаграмму, чтобы вы могли определить, какой размер выборки вам нужен для данного диапазона погрешности или доверительного интервала, исходя из размера вашей популяции. Размер выборки SurveyMonkey Эта диаграмма просто игнорирует тот факт, что вы не получите случайную выборку, поскольку вы получаете только людей, которые потрудились ответить на …

11 confidence-interval sample-size survey sample

1

Почему доля выборки также не имеет биномиального распределения

В биномиальной установке случайная величина X, которая дает количество успехов, распределяется биномиально. Пропорция выборки может быть рассчитана как где - размер вашей выборки. В моем учебнике говорится, чтоИксNИксN\frac{X}{n}NNn Эта пропорция не имеет биномиального распределения однако, поскольку - это просто масштабированная версия биномиально распределенной случайной величины , разве она не должна …

10 distributions binomial proportion sample

2

Оценка размера пересечения нескольких наборов с использованием выборки из одного набора

Я работаю над алгоритмом, который должен рассчитать размер набора, сгенерированного пересечениями не менее 2 наборов. Более конкретно: z=|A0∩…∩An|z=|A0∩…∩An| z = \left |A_0 \cap \ldots \cap A_n \right | Пересекающиеся наборы генерируются запросами SQL, и, чтобы поддерживать скорость, я заблаговременно получаю счет каждого запроса, затем беру набор с наименьшим счетом ( …

10 error sample

1

R линейная регрессия категориальной переменной «скрытое» значение

Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Как определить, что такое «образец»?

Если я дам вам три числа, которые независимо и одинаково взяты из стандартного нормального распределения, то я дал вам три образца или один образец? Если ответ - один из примеров, то есть ли краткое название того, что я дал вам три?

9 sample terminology definition

2

Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» …

9 machine-learning modeling sample validation

Вопросы с тегом «sample»