Статистика и большие данные inference

7

Как бы вы объяснили статистическую значимость людям без статистического фона?

Справочная информация: мне пришлось провести анализ данных для клиента (своего рода юриста), который был абсолютным новичком в статистике. Он спросил меня, что означает термин «статистическая значимость», и я действительно попытался объяснить это… но так как я не очень хорош в объяснении вещей, я потерпел неудачу;)

11 statistical-significance inference communication

1

Нег Бином и Приор Джеффриса

Я пытаюсь получить априор Джеффриса для отрицательного биномиального распределения. Я не вижу, где я иду не так, поэтому, если кто-то может помочь указать на это, это будет оценено. Итак, ситуация такова: я должен сравнить предыдущие распределения, полученные с использованием бинома и отрицательного бинома, где (в обоих случаях) есть испытаний и …

11 probability bayesian inference prior

1

Оценка вероятности успеха с учетом контрольной группы

Предположим, у вас следующая ситуация: Со временем вы наблюдали 1000 игроков в боулинг, каждый из которых сыграл относительно небольшое количество игр (скажем, от 1 до 20). Вы отметили процент забастовок для каждого из этих игроков по количеству игр, в которые играл каждый из них. Заходит новый игрок в боулинг, играет …

11 binomial inference

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

В чем разница между VAE и стохастическим обратным распространением для моделей с глубокой генерацией?

В чем разница между авто-кодированием вариационного байесовского алгоритма и стохастическим обратным распространением для моделей с глубокой генерацией ? Приводит ли вывод в обоих методах к тем же результатам? Я не знаю каких-либо явных сравнений между этими двумя методами, несмотря на то, что обе группы авторов цитируют друг друга.

10 deep-learning inference latent-variable variational-bayes sgd

1

О существовании УМВУЭ и выборе оценки в популяции

Пусть представляет собой случайную выборку взяты из население , где .(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)N(θ,θ2)N(θ,θ2)\mathcal N(\theta,\theta^2)θ∈Rθ∈R\theta\in\mathbb R Я ищу UMVUE of .θθ\theta Совместная плотность составляет(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n) fθ(x1,x2,⋯,xn)=∏i=1n1θ2π−−√exp[−12θ2(xi−θ)2]=1(θ2π−−√)nexp[−12θ2∑i=1n(xi−θ)2]=1(θ2π−−√)nexp[1θ∑i=1nxi−12θ2∑i=1nx2i−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈Rfθ(x1,x2,⋯,xn)=∏i=1n1θ2πexp⁡[−12θ2(xi−θ)2]=1(θ2π)nexp⁡[−12θ2∑i=1n(xi−θ)2]=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈R\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align} , где и .h(x)=1g(θ,T(x))=1(θ2π√)nexp[1θ∑ni=1xi−12θ2∑ni=1x2i−n2]g(θ,T(x))=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]h(x)=1h(x)=1h(\mathbf x)=1 Здесь зависит от и от до и не зависит от …

10 mathematical-statistics normal-distribution estimation inference umvue

2

UMVUE при выборке из популяции

Пусть - случайная выборка из плотности(X1,X2,…,Xn)(X1,X2,…,Xn)(X_1,X_2,\ldots,X_n)fθ(x)=θxθ−110<x<1,θ>0fθ(x)=θxθ−110<x<1,θ>0f_{\theta}(x)=\theta x^{\theta-1}\mathbf1_{00 Я пытаюсь найти UMVUE .θ1+θθ1+θ\frac{\theta}{1+\theta} Совместная плотность является(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n) fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110<x1,…,xn<1=exp[(θ−1)∑i=1nlnxi+nlnθ+ln(10<x1,…,xn<1)],θ>0fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110<x1,…,xn<1=exp⁡[(θ−1)∑i=1nln⁡xi+nln⁡θ+ln⁡(10<x1,…,xn<1)],θ>0\begin{align} f_{\theta}(x_1,\cdots,x_n)&=\theta^n\left(\prod_{i=1}^n x_i\right)^{\theta-1}\mathbf1_{00 \end{align} Поскольку совокупность pdf относится к семипараметрическому экспоненциальному семейству, это показывает, что полной достаточной статистикой для являетсяfθfθf_{\theta}θθ\thetaT(X1,…,Xn)=∑i=1nlnXiT(X1,…,Xn)=∑i=1nln⁡XiT(X_1,\ldots,X_n)=\sum_{i=1}^n\ln X_i Так как , на первый взгляд даст мне UMVUE от Теорема Лемана-Шеффе. Не уверен, …

10 self-study distributions estimation inference beta-distribution

2

Почему оценщик считается случайной величиной?

Мое понимание того, что такое оценщик и оценка: Оценщик: правило для вычисления оценки. Оценка: значение, рассчитанное на основе набора данных, основанного на оценщике. Между этими двумя терминами, если меня попросят указать случайную переменную, я бы сказал, что оценка является случайной величиной, поскольку ее значение будет меняться случайным образом в зависимости …

10 mathematical-statistics inference random-variable estimators

2

Справочный запрос: классическая статистика для рабочих данных ученых

Я работаю специалистом по данным с большим опытом регрессии, других алгоритмов машинного обучения и программирования (как для анализа данных, так и для разработки общего программного обеспечения). Большая часть моей трудовой жизни была сосредоточена на построении моделей для прогнозирующей точности (работа в различных бизнес-условиях) и построении конвейеров данных для поддержки моей …

10 hypothesis-testing references frequentist inference

1

Есть ли какая-то реальная статистика за «теорему Пифагора о бейсболе»?

Я читаю книгу о саберметрии, в частности, математике Уэйна Уинстона, и в первой главе он вводит количество, которое можно использовать для прогнозирования вероятности выигрыша команд: и он, похоже, намекает на то, что в середине сезона его можно использовать для прогнозирования выигрышалучше,чем выигрыша в первой половине сезона. Он обобщает формулу на …

10 maximum-likelihood inference

1

Как интерпретировать тест Кохрана-Мантеля-Хензеля?

Я проверяю независимость двух переменных, A и B, стратифицированных по C. A и B являются двоичными переменными, а C является категориальным (5 значений). Выполняя точный тест Фишера для A и B (все слои объединены), я получаю: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 …

10 categorical-data interpretation inference contingency-tables fishers-exact

3

Концепция «доказано статистически»

Когда в новостях говорится о вещах, «доказанных статистически», используют ли они правильно определенную концепцию статистики, используют ее неправильно или используют оксюморон? Я полагаю, что «статистическое доказательство» - это на самом деле не нечто, доказывающее гипотезу или математическое доказательство, а скорее «статистический тест».

10 inference proof

4

Последствия текущих дебатов о статистической значимости

В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти неоднозначные варианты выбора, например, включают в себя случай, который классифицируется как выброс, выполнение …

10 hypothesis-testing inference philosophical reproducible-research social-science

1

Найти UMVUE из где

Пусть это случайные переменные, имеющие pdfX1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) где θ>0θ>0\theta >0 . Задайте UMVUE для 1θ1θ\frac{1}{\theta} и вычислите его дисперсию Я узнал о двух таких методах для полученных UMVUE: Нижняя граница Крамера-Рао (CRLB) Леманн-Шеффе Терем Я собираюсь попробовать это, используя первый из двух. …

10 self-study estimation inference exponential-family umvue

3

регрессия гауссовского процесса для больших наборов данных

Я узнал о регрессии гауссовского процесса из онлайн-видео и заметок к лекциям, и я понимаю, что если у нас есть набор данных с точками, то мы предполагаем, что данные взяты из n- мерного многомерного гауссиана. Таким образом, мой вопрос в том случае, если n равно 10 из миллионов, регрессия гауссовского …

10 machine-learning probability inference gaussian-process multivariate-regression

Вопросы с тегом «inference»