Вопросы с тегом «sampling»

Создание выборок из хорошо определенной популяции с использованием вероятностного метода и / или создание случайных чисел из указанного распределения. Поскольку этот тег неоднозначен, пожалуйста, рассмотрите [выборку из опроса] для первого и [Монте-Карло] или [симуляцию] для второго. При возникновении вопросов, касающихся создания случайных выборок из известных дистрибутивов, рассмотрите возможность использования тега [random-generation].

3
Кластер больших данных в R и имеет ли значение выборка?
Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

3
Оцените размер популяции по количеству повторных наблюдений
Скажем, у меня 50 миллионов уникальных вещей, и я беру 10 миллионов образцов (с заменой) ... Первый прикрепленный график показывает, сколько раз я выбираю одну и ту же "вещь", что относительно редко население больше, чем моя выборка. Однако, если моя популяция составляет всего 10 миллионов штук, и я беру 10 …

1
Последовательность Халтона против последовательности Соболя?
Из ответа на предыдущий вопрос я был направлен на последовательность Халтона для создания набора векторов, которые покрывали равномерное пространство выборки довольно равномерно. Но страница в Википедии упоминает, что более высокие простые числа часто очень сильно коррелируют в начале ряда. Это, кажется, имеет место для любой пары старших чисел с относительно …

5
Почему утверждается, что выборка часто является более точной, чем перепись?
Изучая курс выборки, я встречаю следующие два утверждения: 1) Ошибка выборки приводит к большей изменчивости, ошибки выборки приводят к смещению. 2) Из-за ошибки несэмплирования выборка часто является более точной, чем CENSUS. Я не знаю, как понять эти два утверждения. Какова основная логика для получения этих двух утверждений?

3
Почему несколько (если не все) тесты параметрических гипотез предполагают случайную выборку?
Тесты, такие как Z, t и некоторые другие, предполагают, что данные основаны на случайной выборке. Почему? Предположим, что я занимаюсь экспериментальными исследованиями, в которых мне важнее внутренняя достоверность, чем внешняя. Итак, если моя выборка может быть немного предвзятой, хорошо, поскольку я согласился не делать вывод о гипотезе для всего населения. …

2
Как мы можем получить нормальное распределение как если диапазон значений нашей случайной величины ограничен?
Допустим, у нас есть случайная величина с диапазоном значений, ограниченных aaa и bbb , где aaa - минимальное значение, а бbb - максимальное значение. Мне сказали , что в n → ∞n→∞n \to \infty , где Nnn нашего размера выборки, распределение выборки по средствам выборки является нормальным распределением. То есть, …

3
Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами
Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы знать, значительно ли вероятность наблюдать меньшее время обработки после изменения выше 50%. …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
Как быстро сэмплировать X, если exp (X) ~ Gamma?
У меня есть простая проблема выборки, где мой внутренний цикл выглядит так: v = sample_gamma(k, a) где sample_gammaобразцы из гамма-распределения, чтобы сформировать образец Дирихле. Это работает хорошо, но для некоторых значений k / a некоторые из последующих вычислений теряются. Я адаптировал его для использования переменных пространства журнала: v = log(sample_gamma(k, …

1
Почему центральная предельная теорема работает с одним образцом?
Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50 человек (т.е. …

2
Методы MCMC - сжигание образцов?
В методах MCMC я продолжаю читать о burn-inвремени или количестве образцов до "burn". Что это такое и зачем это нужно? Обновить: Как только MCMC стабилизируется, останется ли он стабильным? Как понятие burn-inвремени связано с понятием времени смешивания?
12 sampling  mcmc 

1
Интуитивно понятные примеры важности выборки
Мой опыт - информатика. Я довольно новичок в методах выборки Монте-Карло, и, хотя я понимаю математику, мне трудно придумывать интуитивные примеры для выборки по важности. Точнее, кто-то может привести примеры: оригинальное распределение, из которого нельзя выбрать образец, но можно оценить распределение важности, из которого можно взять выборку и адекватное для …

4
Почему вообще стоит рассматривать выборку без замены в практическом применении?
Выборка с заменой имеет два преимущества перед выборкой без замены: 1) Вам не нужно беспокоиться о конечной коррекции населения. 2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время. Конечно, из академического POV нужно исследовать оба метода. Но из практического POV …

3
Как выполнить повторную выборку в R, не повторяя перестановок?
Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую ​​же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } Это производит [1] 1 2 0 …

1
Выборка из предельного распределения с использованием условного распределения?
Я хочу сделать выборку из одномерной плотности но я знаю только соотношение:еИксеИксf_X еИкс( х ) = ∫еИкс| Y( х | у) fY( у) гY,еИкс(Икс)знак равно∫еИкс|Y(Икс|Y)еY(Y)dY,f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. Я хочу избежать использования MCMC (непосредственно на интегральном представлении) и, так как и f Y ( y ) легко …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.