Вопросы с тегом «resampling»

Повторная выборка берет образец из образца. Распространенными видами применения являются джекнифинг (взятие подвыборки, например, все значения, кроме 1) и начальная загрузка (отбор проб с заменой). Эти методы могут обеспечить надежную оценку распределения выборки, когда будет трудно или невозможно получить аналитический вывод.

2
Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки
Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с использованием R. Скажем, у меня следующая ситуация - я хочу выполнить ANOVA с переменной Y ( Yvar) и …

5
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?
Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …

2
Насколько хорошо самозагрузка аппроксимирует выборочное распределение оценки?
Недавно изучив начальную загрузку, у меня возник концептуальный вопрос, который до сих пор меня удивляет: У вас есть население, и вы хотите знать атрибут населения, то есть , где я использую для представления населения. Это может означать, например, население. Обычно вы не можете получить все данные от населения. Таким образом, …

2
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?
Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового распределения классов для каждого сгиба будет работать против этого, если вы не уверены, что …

2
Каковы предположения о тесте перестановки?
Часто утверждается, что тесты перестановок не имеют никаких предположений, однако это, безусловно, не так. Например, если мои образцы как-то коррелируют, я могу представить, что перестановка их меток не будет правильной вещью. Единственное, что я обнаружил в этой проблеме, - это предложение из Википедии: «Важное предположение, стоящее за тестом перестановки, заключается …

2
Методы повторного отбора карета
Я использую библиотеку caretв R для тестирования различных процедур моделирования. trainControlОбъект позволяет указать метод повторной дискретизации. Эти методы описаны в документации разделе 2.3 , и включают в себя: boot, boot632, cv, LOOCV, LGOCV, repeatedcvи oob. Хотя некоторые из них легко вывести, не все эти методы четко определены. Какие процедуры соответствуют …
20 r  resampling  caret 

2
Классификация тестирования данных с избыточным дискретизацией
Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN ) Я реализовал ADASYN, потому что …

2
Тест на выборку IID
Как бы вы проверили или проверили, что выборка является IID (независимой и идентично распределенной)? Обратите внимание, что я не имею в виду гауссово и идентично распределенное, просто IID. И идея, которая приходит мне в голову, состоит в том, чтобы многократно разделить выборку на две подвыборки одинакового размера, выполнить тест Колмогорова-Смирнова …

2
Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?
«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из реальных данных путем повторной выборки с заменой, пока моделируемые …

2
Лучшие учебники по повторной выборке Bootstrap?
Я просто хотел спросить, какие, по вашему мнению, лучшие из доступных книг по начальной загрузке. Я имею в виду не только то, что написано его разработчиками. Не могли бы вы указать, какой учебник, по вашему мнению, лучше всего подходит для начальной загрузки и отвечает следующим критериям? Философская / эпистемологическая основа …

1
Известен ли этот метод пересчета временных рядов в литературе? У него есть имя?
Недавно я искал способы повторной выборки временных рядов таким образом, чтобы Приблизительно сохраняйте автокорреляцию длительных процессов памяти. Сохраните область наблюдений (например, пересчитанный временной ряд целых чисел все еще является временным рядом целых чисел). Может влиять только на некоторые весы, если требуется. Я придумал следующую схему перестановок для временного ряда длиной …

3
Почему начальная загрузка полезна?
Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому распределению?

1
Требуется ли центрирование при начальной загрузке образца?
Читая о том, как приблизить распределение выборки, я наткнулся на непараметрический метод начальной загрузки. По- видимому, можно аппроксимировать распределение распределения ˉ Х * п - ˉ Х п , где ˉ Х * п обозначает образец среднего значения выборки начальной загрузки.Икс¯N- μИкс¯N-μ\bar{X}_n-\muИкс¯*N- Х¯NИкс¯N*-Икс¯N\bar{X}_n^*-\bar{X}_nИкс¯*NИкс¯N*\bar{X}_n^* Мой вопрос: мне нужно центрирование? Зачем? Разве …

1
Почему бы не всегда использовать загрузочные CI?
Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется очевидным, что изучать в первую очередь, я полагаю, что бумаги …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.