Статистика и большие данные bias

7

Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой

Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения? Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? КKK, Ответ на этот вопрос предполагает, что модели, изученные с помощью перекрестной проверки …

83 machine-learning variance cross-validation bias bias-variance-tradeoff

10

Что означает «Ученые восстают против статистической значимости»? (Комментарий в природе)

Название комментария в природе Ученые восстают против статистической значимости начинается с: Валентин Амрейн, Сандер Гренландия, Блейк МакШейн и более 800 подписантов призывают прекратить раздутые заявления и исключить, возможно, важные последствия. и позже содержит такие утверждения, как: Опять же, мы не защищаем запрет на значения P, доверительные интервалы или другие статистические …

61 statistical-significance p-value bias

6

Интуитивное объяснение компромисса смещения?

Я ищу интуитивное объяснение компромисса смещения дисперсии, как в целом, так и конкретно в контексте линейной регрессии.

46 regression variance bias

7

Каковы наиболее распространенные уклоны, которые люди делают при сборе или интерпретации данных?

Я эконом / стат майор. Мне известно, что экономисты пытались изменить свои предположения о поведении и рациональности человека, выявляя ситуации, в которых люди не ведут себя рационально. Например, предположим, что я предлагаю вам 100% -ную потерю в 1000 долл. Или 50% -ную потерю в размере 2500 долл. , Люди выбирают …

39 bias

2

Когда необъективная оценка предпочтительнее, чем объективная?

Много раз очевидно, почему кто-то предпочитает объективную оценку. Но есть ли обстоятельства, при которых мы могли бы предпочесть предвзятую оценку объективной оценке?

38 bias unbiased-estimator estimators

4

(Почему) у переоснащенных моделей, как правило, большие коэффициенты?

Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого хорошего представления о том, почему …

33 regression variance linear-model bias regularization

4

Когда верна оценка предвзятости?

Часто утверждается, что начальная загрузка может дать оценку смещения в оценщике. Если т является оценкой для некоторой статистики, и ~ т я являюсь бутстраповскими репликами (с I ∈ { 1 , ⋯ , N } ), то оценкой смещения начальной загрузки является б я ы т ≈ -t^t^\hat tt~it~i\tilde t_ii∈{1,⋯,N}i∈{1,⋯,N}i\in\{1,\cdots,N\}biast≈1N∑it~i−t^biast≈1N∑it~i−t^\begin{equation} …

31 bootstrap bias

5

Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Смещение оценки момента логнормального распределения

Я делаю некоторый численный эксперимент, который состоит в выборке логнормального распределения X~ LN( μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma) и попытке оценить моменты E [ XN]Е[ИксN]\mathbb{E}[X^n] двумя методами: Глядя на выборку среднего значения ИксNИксNX^n Оценивая μμ\mu и σ2σ2\sigma^2 , используя выборочные средние для журнал( X) , журнал2( X)журнал⁡(Икс),журнал2⁡(Икс)\log(X), \log^2(X) , а затем используя тот …

25 estimation bias lognormal moments

3

Интуитивное обоснование предвзятых оценок максимального правдоподобия

У меня путаница в оценках предвзятого максимального правдоподобия (ML). Математика всей концепции довольно ясна для меня, но я не могу понять интуитивное обоснование этого. Учитывая определенный набор данных, который имеет выборки из распределения, который сам является функцией параметра, который мы хотим оценить, оценщик ML приводит к значению для параметра, который, …

25 maximum-likelihood bias

5

Почему смещение влияет, когда клиническое испытание прекращается на ранней стадии?

Промежуточный анализ представляет собой анализ данных в одном или нескольких временных точках до официального закрытия исследования с целью, например, возможно завершение исследования рано. Согласно Piantadosi, S. ( Клинические испытания - методологическая перспектива ): « Оценка эффекта лечения будет смещена, когда испытание прекращается на ранней стадии. Чем раньше будет принято решение, …

24 clinical-trials bias

2

покрытие доверительных интервалов регуляризованными оценками

Предположим, я пытаюсь оценить большое количество параметров по многомерным данным, используя некие регуляризованные оценки. Регуляризатор вносит некоторую погрешность в оценки, но это все же может быть хорошим компромиссом, потому что уменьшение дисперсии должно более чем компенсировать это. Проблема возникает, когда я хочу оценить доверительные интервалы (например, используя приближение Лапласа или …

21 confidence-interval bias regularization ridge-regression coverage-probability

3

Что интуитивно означает «предвзятость»?

Я изо всех сил пытаюсь понять концепцию смещения в контексте анализа линейной регрессии. Каково математическое определение смещения? Что именно является предвзятым и почему / как? Наглядный пример?

21 regression terminology bias definition

5

Глубокое обучение: Как узнать, какие переменные важны?

С точки зрения языка нейронной сети (у = вес * х + смещение), как я узнаю, какие переменные являются более важными, чем другие? У меня есть нейронная сеть с 10 входами, 1 скрытый слой с 20 узлами и 1 выходной слой с 1 узлом. Я не уверен, как узнать, какие …

20 machine-learning neural-networks bias tensorflow theano

Вопросы с тегом «bias»