Вопросы с тегом «resampling»

Повторная выборка берет образец из образца. Распространенными видами применения являются джекнифинг (взятие подвыборки, например, все значения, кроме 1) и начальная загрузка (отбор проб с заменой). Эти методы могут обеспечить надежную оценку распределения выборки, когда будет трудно или невозможно получить аналитический вывод.

3
Как выполнить повторную выборку в R, не повторяя перестановок?
Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую ​​же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } Это производит [1] 1 2 0 …

1
Подходит ли начальная загрузка для этих непрерывных данных?
Я полный новичок :) Я делаю исследование с размером выборки 10 000 человек из примерно 745 000 человек. Каждый образец представляет «процентное сходство». Подавляющее большинство выборок составляет около 97% -98%, но некоторые составляют от 60% до 90%, то есть распределение сильно искажено. Около 0,6% результатов составляют 0%, но они будут …

1
Методика начальной загрузки. Зачем пересчитывать «с заменой» вместо случайной подвыборки?
Метод начальной загрузки получил широкое распространение в последние годы, я также часто его использую, особенно потому, что обоснование довольно интуитивно понятно. Но это одна вещь, которую я не понимаю. Почему Efron решил выполнить повторную выборку с заменой, а не просто субсэмплирование путем случайного включения или исключения отдельных наблюдений? Я думаю, …

1
Коэффициент Джини и границы погрешности
У меня есть временной ряд данных с N = 14 счетчиками в каждый момент времени, и я хочу вычислить коэффициент Джини и стандартную ошибку для этой оценки в каждый момент времени. Поскольку у меня есть только N = 14 отсчетов в каждый момент времени, я продолжил вычисление дисперсии складного ножа, …

4
Почему тесты гипотез на переделанных наборах данных слишком часто отклоняют нуль?
tl; dr: Начиная с набора данных, сгенерированного под нулевым значением, я повторно проанализировал случаи с заменой и провел проверку гипотезы для каждого повторно выбранного набора данных. Эти проверки гипотез отклоняют ноль более 5% времени. В приведенном ниже очень простом моделировании я генерирую наборы данных с X∼N(0,1)⨿Y∼N(0,1)X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y …

2
Должен ли я загружаться на уровне кластера или на индивидуальном уровне?
У меня есть модель выживания с пациентами, размещенными в больницах, которая включает случайный эффект для больниц. Случайный эффект имеет гамма-распределение, и я пытаюсь сообщить о «значимости» этого термина в легко понятной шкале. Я нашел следующие ссылки, в которых используется Медианное соотношение рисков (немного похожее на Медианный коэффициент вероятности), и рассчитал …

2
Хороший текст для пересчета?
Может ли группа рекомендовать хороший вводный текст / ресурс по применяемым методам повторной выборки? В частности, меня интересуют альтернативы классическим параметрическим тестам (например, t-тестам, ANOVA, ANCOVA) для сравнения групп, когда такие предположения, как нормальность, явно нарушаются. Пример типа проблемы, который я хотел бы изучить для лучшего решения, может включать что-то …

1
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими
Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с softmaxфункцией на последнем слое. Таким образом, я могу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Размер образцов начальной загрузки
Я изучаю начальную загрузку как средство оценки дисперсии выборочной статистики. У меня есть одно основное сомнение. Цитата из http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : • Сколько наблюдений мы должны пересчитать? Хорошее предложение - оригинальный размер выборки. Как мы можем пересчитать столько наблюдений, сколько в исходной выборке? Если у меня размер выборки 100, и я …

1
Передискретизация с категориальными переменными
Я хотел бы выполнить комбинацию передискретизации и недостаточной выборки, чтобы сбалансировать мой набор данных примерно с 4000 клиентами, разделенными на две группы, где доля одной из групп составляет примерно 15%. Я изучил SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) и ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), но оба они создают новые синтетические образцы с …

1
Можно ли использовать повторную выборку при начальной загрузке для вычисления доверительного интервала для дисперсии набора данных?
Я знаю, что если вы повторно отбираете данные из набора данных и каждый раз вычисляете среднее значение, эти средства будут следовать нормальному распределению (по CLT). Таким образом, вы можете рассчитать доверительный интервал по среднему значению набора данных, не делая никаких предположений о распределении вероятностей набора данных. Мне было интересно, если …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.