Статистика и большие данные sampling

3

Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

13 r clustering sampling large-data

3

Оцените размер популяции по количеству повторных наблюдений

Скажем, у меня 50 миллионов уникальных вещей, и я беру 10 миллионов образцов (с заменой) ... Первый прикрепленный график показывает, сколько раз я выбираю одну и ту же "вещь", что относительно редко население больше, чем моя выборка. Однако, если моя популяция составляет всего 10 миллионов штук, и я беру 10 …

13 r sampling expectation-maximization

1

Последовательность Халтона против последовательности Соболя?

Из ответа на предыдущий вопрос я был направлен на последовательность Халтона для создания набора векторов, которые покрывали равномерное пространство выборки довольно равномерно. Но страница в Википедии упоминает, что более высокие простые числа часто очень сильно коррелируют в начале ряда. Это, кажется, имеет место для любой пары старших чисел с относительно …

13 sampling small-sample quasi-monte-carlo

5

Почему утверждается, что выборка часто является более точной, чем перепись?

Изучая курс выборки, я встречаю следующие два утверждения: 1) Ошибка выборки приводит к большей изменчивости, ошибки выборки приводят к смещению. 2) Из-за ошибки несэмплирования выборка часто является более точной, чем CENSUS. Я не знаю, как понять эти два утверждения. Какова основная логика для получения этих двух утверждений?

13 estimation sampling survey bias

3

Почему несколько (если не все) тесты параметрических гипотез предполагают случайную выборку?

Тесты, такие как Z, t и некоторые другие, предполагают, что данные основаны на случайной выборке. Почему? Предположим, что я занимаюсь экспериментальными исследованиями, в которых мне важнее внутренняя достоверность, чем внешняя. Итак, если моя выборка может быть немного предвзятой, хорошо, поскольку я согласился не делать вывод о гипотезе для всего населения. …

12 hypothesis-testing sampling parametric randomness

2

Как мы можем получить нормальное распределение как если диапазон значений нашей случайной величины ограничен?

Допустим, у нас есть случайная величина с диапазоном значений, ограниченных aaa и bbb , где aaa - минимальное значение, а бbb - максимальное значение. Мне сказали , что в n → ∞n→∞n \to \infty , где Nnn нашего размера выборки, распределение выборки по средствам выборки является нормальным распределением. То есть, …

12 normal-distribution sampling random-variable central-limit-theorem

3

Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами

Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы знать, значительно ли вероятность наблюдать меньшее время обработки после изменения выше 50%. …

12 sampling nonparametric

1

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Как быстро сэмплировать X, если exp (X) ~ Gamma?

У меня есть простая проблема выборки, где мой внутренний цикл выглядит так: v = sample_gamma(k, a) где sample_gammaобразцы из гамма-распределения, чтобы сформировать образец Дирихле. Это работает хорошо, но для некоторых значений k / a некоторые из последующих вычислений теряются. Я адаптировал его для использования переменных пространства журнала: v = log(sample_gamma(k, …

12 sampling gamma-distribution

1

Почему центральная предельная теорема работает с одним образцом?

Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50 человек (т.е. …

12 sampling central-limit-theorem

2

Методы MCMC - сжигание образцов?

В методах MCMC я продолжаю читать о burn-inвремени или количестве образцов до "burn". Что это такое и зачем это нужно? Обновить: Как только MCMC стабилизируется, останется ли он стабильным? Как понятие burn-inвремени связано с понятием времени смешивания?

12 sampling mcmc

1

Интуитивно понятные примеры важности выборки

Мой опыт - информатика. Я довольно новичок в методах выборки Монте-Карло, и, хотя я понимаю математику, мне трудно придумывать интуитивные примеры для выборки по важности. Точнее, кто-то может привести примеры: оригинальное распределение, из которого нельзя выбрать образец, но можно оценить распределение важности, из которого можно взять выборку и адекватное для …

12 probability distributions sampling importance-sampling

4

Почему вообще стоит рассматривать выборку без замены в практическом применении?

Выборка с заменой имеет два преимущества перед выборкой без замены: 1) Вам не нужно беспокоиться о конечной коррекции населения. 2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время. Конечно, из академического POV нужно исследовать оба метода. Но из практического POV …

12 sampling finite-population

3

Как выполнить повторную выборку в R, не повторяя перестановок?

Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } Это производит [1] 1 2 0 …

12 r sampling combinatorics resampling

1

Выборка из предельного распределения с использованием условного распределения?

Я хочу сделать выборку из одномерной плотности но я знаю только соотношение:еИксеИксf_X еИкс( х ) = ∫еИкс| Y( х | у) fY( у) гY,еИкс(Икс)знак равно∫еИкс|Y(Икс|Y)еY(Y)dY,f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. Я хочу избежать использования MCMC (непосредственно на интегральном представлении) и, так как и f Y ( y ) легко …

12 sampling conditional-probability monte-carlo marginal

Вопросы с тегом «sampling»