Статистика и большие данные bootstrap

1

Правильная техника начальной загрузки для кластерных данных?

У меня есть вопрос относительно правильной методики начальной загрузки для использования с данными, где присутствует сильная кластеризация. Мне было поручено оценить многомерную модель прогнозирования смешанных эффектов для данных страховых требований путем оценки текущей базовой модели на более поздних данных о претензиях, чтобы определить, насколько хорошо модель прогнозирует, какие эпизоды медицинской …

16 bootstrap random-effects-model mixed-model

1

Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Может ли начальная загрузка использоваться для замены непараметрических тестов?

Я довольно плохо знаком со статистикой. Концепция начальной загрузки меня смутила. Я знаю, что для нормального распределения выборки необходимо использовать определенные тесты, такие как t-критерий. В случаях, когда данные обычно не распространяются, запрос «начальной загрузки» в t-тестах в SPSS обойдёт ли это проблему ненормальности? Если да, то является ли t-статистика, …

15 nonparametric bootstrap

2

Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?

«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из реальных данных путем повторной выборки с заменой, пока моделируемые …

15 cross-validation bootstrap validation resampling

2

Почему функция начальной загрузки scikit-learn пересчитывает набор тестов?

При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap , который, похоже, строит тестовый набор из чертежа с заменой из подмножества данных из пакета. Что за статистическое обоснование …

15 cross-validation bootstrap random-forest scikit-learn bagging

2

Лучшие учебники по повторной выборке Bootstrap?

Я просто хотел спросить, какие, по вашему мнению, лучшие из доступных книг по начальной загрузке. Я имею в виду не только то, что написано его разработчиками. Не могли бы вы указать, какой учебник, по вашему мнению, лучше всего подходит для начальной загрузки и отвечает следующим критериям? Философская / эпистемологическая основа …

14 sampling model-selection bootstrap references resampling

3

Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function и затем получение образцов начальной загрузки путем моделирования наблюдений из оцененных cdf B раз подряд.nnnBBB Если я …

14 bootstrap sample-size sample small-sample finite-population

3

Вопросы по параметрическому и непараметрическому бутстрапу

Я читаю главу о частой статистике из книги Кевина Мерфи « Машинное обучение - вероятностная перспектива ». Раздел по начальной загрузке гласит: Бутстрап является простой техникой Монте-Карло для аппроксимации распределения выборки. Это особенно полезно в тех случаях, когда оценка является сложной функцией истинных параметров. Идея проста. Если бы мы знали …

14 bootstrap frequentist

2

Как: интервалы прогнозирования для линейной регрессии с помощью начальной загрузки

У меня возникли проблемы, чтобы понять, как использовать начальную загрузку для расчета интервалов прогнозирования для модели линейной регрессии. Может кто-нибудь наметить пошаговую процедуру? Я искал через Google, но на самом деле ничего не имеет смысла для меня. Я понимаю, как использовать начальную загрузку для расчета доверительных интервалов для параметров модели.

14 regression bootstrap prediction-interval

1

Известен ли этот метод пересчета временных рядов в литературе? У него есть имя?

Недавно я искал способы повторной выборки временных рядов таким образом, чтобы Приблизительно сохраняйте автокорреляцию длительных процессов памяти. Сохраните область наблюдений (например, пересчитанный временной ряд целых чисел все еще является временным рядом целых чисел). Может влиять только на некоторые весы, если требуется. Я придумал следующую схему перестановок для временного ряда длиной …

14 time-series bootstrap resampling permutation-test

4

Интервалы прогнозирования для алгоритмов машинного обучения

Я хочу знать, является ли процесс, описанный ниже, действительным / приемлемым и доступно ли любое обоснование. Идея: контролируемые алгоритмы обучения не предполагают базовых структур / распределений данных. В конце дня они выводят точечные оценки. Я надеюсь как-то количественно оценить неопределенность оценок. Теперь процесс построения модели ML по своей природе является …

14 machine-learning confidence-interval bootstrap supervised-learning gbm

1

Почему при расчете доверительных интервалов с использованием метода bca генерируется ошибка «оценочная корректировка« a »является NA» из загрузочного пакета R?

У меня есть вектор чисел, который я загрузил здесь (... / code / MyData.Rdata), используя dput. Я хотел бы получить bca ci, поэтому я написал этот код: my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) Но когда я запускаю следующее, я получаю это: …

14 r bootstrap

3

Почему начальная загрузка полезна?

Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому распределению?

13 machine-learning mathematical-statistics sampling bootstrap resampling

1

Зачем использовать параметрическую загрузку?

В настоящее время я пытаюсь разобраться в некоторых вещах, касающихся параметрической начальной загрузки. Большинство вещей, вероятно, тривиально, но я все еще думаю, что, возможно, что-то пропустил. Предположим, я хочу получить доверительные интервалы для данных с помощью параметрической процедуры начальной загрузки. Итак, у меня есть этот образец, и я предполагаю, что …

13 nonparametric bootstrap simulation monte-carlo parametric

1

Являются ли уместными стандартные ошибки и доверительные интервалы в регрессиях, где допущение гомоскедастичности нарушено?

Если в стандартных регрессиях OLS нарушаются два предположения (нормальное распределение ошибок, гомоскедастичность), является ли начальная загрузка стандартных ошибок и доверительных интервалов подходящей альтернативой для получения значимых результатов в отношении значимости коэффициентов регрессора? Тесты значимости с загруженными стандартными ошибками и доверительными интервалами все еще работают с гетероскедастичностью? Если да, то какие …

13 regression bootstrap least-squares heteroscedasticity

Вопросы с тегом «bootstrap»