Статистика и большие данные mathematical-statistics

2

Сколько исчисления необходимо, чтобы понять оценку максимального правдоподобия?

Я пытаюсь спланировать учебный план для изучения MLE. Чтобы сделать это, я пытаюсь выяснить, какой минимальный уровень исчисления необходим для понимания MLE. Достаточно ли понять основы исчисления (то есть найти минимум и максимум функций), чтобы понять MLE?

11 estimation mathematical-statistics maximum-likelihood

1

Найти сопоставимую контрольную группу для группы лечения?

У меня есть группа лечения размером 30 (30 школ в Калифорнии), которая использовала дополнительное математическое программное обеспечение. В простом анализе я хотел бы сравнить средний рост математики учащихся между нашей группой лечения и сопоставимой контрольной группой. Есть много школ в CA, которые не использовали программное обеспечение. Я бы хотел, чтобы …

11 mathematical-statistics descriptive-statistics computational-statistics

3

Информационно-теоретическая центральная предельная теорема

Простейшая форма информационно-теоретического CLT заключается в следующем: Пусть будут iid со средним и дисперсией 1 . Пусть f_n - плотность нормализованной суммы \ frac {\ sum_ {i = 1} ^ n X_i} {\ sqrt {n}}, а \ phi - стандартная гауссовская плотность. Тогда теоретико-информационный CLT утверждает, что если D (f_n …

11 mathematical-statistics information-theory central-limit-theorem

3

Почему энтропия информации больше 1?

Я реализовал следующую функцию для вычисления энтропии: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum Результат: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats import entropy # using a built-in package # …

11 mathematical-statistics python entropy

2

Решение немецкой проблемы танков

Есть ли формальное математическое доказательство того, что решение немецкой проблемы танков является функцией только параметров k (количество наблюдаемых образцов) и m (максимальное значение среди наблюдаемых образцов)? Другими словами, можно ли доказать, что решение не зависит от других значений выборки, кроме максимального значения?

10 mathematical-statistics sufficient-statistics

1

О существовании УМВУЭ и выборе оценки в популяции

Пусть представляет собой случайную выборку взяты из население , где .(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)N(θ,θ2)N(θ,θ2)\mathcal N(\theta,\theta^2)θ∈Rθ∈R\theta\in\mathbb R Я ищу UMVUE of .θθ\theta Совместная плотность составляет(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n) fθ(x1,x2,⋯,xn)=∏i=1n1θ2π−−√exp[−12θ2(xi−θ)2]=1(θ2π−−√)nexp[−12θ2∑i=1n(xi−θ)2]=1(θ2π−−√)nexp[1θ∑i=1nxi−12θ2∑i=1nx2i−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈Rfθ(x1,x2,⋯,xn)=∏i=1n1θ2πexp⁡[−12θ2(xi−θ)2]=1(θ2π)nexp⁡[−12θ2∑i=1n(xi−θ)2]=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈R\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align} , где и .h(x)=1g(θ,T(x))=1(θ2π√)nexp[1θ∑ni=1xi−12θ2∑ni=1x2i−n2]g(θ,T(x))=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]h(x)=1h(x)=1h(\mathbf x)=1 Здесь зависит от и от до и не зависит от …

10 mathematical-statistics normal-distribution estimation inference umvue

2

Почему оценщик считается случайной величиной?

Мое понимание того, что такое оценщик и оценка: Оценщик: правило для вычисления оценки. Оценка: значение, рассчитанное на основе набора данных, основанного на оценщике. Между этими двумя терминами, если меня попросят указать случайную переменную, я бы сказал, что оценка является случайной величиной, поскольку ее значение будет меняться случайным образом в зависимости …

10 mathematical-statistics inference random-variable estimators

1

Доказательства на уровне бакалавриата теоремы Питмана – Купмана – Дармуа

Теорема Питмана – Купмана – Дармуа гласит, что если выборка iid из параметризованного семейства вероятностных распределений допускает достаточную статистику, число скалярных компонент которой не растет с размером выборки, то это экспоненциальное семейство. Какие-нибудь учебники или элементарные пояснительные работы дают доказательства? Почему он назван в честь этих трех человек?

10 mathematical-statistics references

2

Охватывает ли парадокс Симпсона все случаи обращения из скрытой переменной?

Ниже приводится вопрос о множестве визуализаций, предлагаемых в качестве «доказательства по картинке» о существовании парадокса Симпсона, и, возможно, вопрос о терминологии. Парадокс Симпсона - довольно простое явление, которое можно описать и привести числовые примеры (причина, по которой это может произойти, глубока и интересна). Парадокс заключается в том, что существуют таблицы …

10 mathematical-statistics data-visualization causality contingency-tables simpsons-paradox

2

Простое доказательство

Пусть - независимые стандартные нормальные случайные величины. Есть много (длинных) доказательств, показывающих, чтоZ1,⋯,ZnZ1,⋯,ZnZ_1,\cdots,Z_n ∑i=1n(Zi−1n∑j=1nZj)2∼χ2n−1∑i=1n(Zi−1n∑j=1nZj)2∼χn−12 \sum_{i=1}^n \left(Z_i - \frac{1}{n}\sum_{j=1}^n Z_j \right)^2 \sim \chi^2_{n-1} Многие доказательства довольно длинные, и некоторые из них используют индукцию (например, Статистический вывод Казеллы). Мне интересно, есть ли какое-нибудь легкое доказательство этого результата.

10 mathematical-statistics sampling

2

Графические модели и машины Больцмана связаны математически?

Хотя я фактически занимался программированием на машинах Больцмана в классе физики, я не знаком с их теоретической характеристикой. Напротив, я знаю скромное количество о теории графических моделей (о первых нескольких главах книги Лауритцена « Графические модели» ). Вопрос: Есть ли какая-либо значимая связь между графическими моделями и машиной Больцмана? Является …

10 machine-learning neural-networks mathematical-statistics graphical-model rbm

2

Является ли смещение свойством оценщика или конкретных оценок?

В качестве примера я часто встречаю студентов, которые знают, что Observed является предвзятой оценкой численности населения R 2 . Затем, при написании своих отчетов, они говорят что-то вроде:р2р2R^2R2R2R^2 «Я рассчитал Observed и Скорректированный R 2 , и они были довольно похожи, предполагая лишь небольшое смещение в полученном нами значении Observed …

10 mathematical-statistics terminology bias estimators

2

Что именно означает нотация?

Что означает обозначение (точка над тильдой) в контексте, подобном ? х ˙ ~ N(0,1)∼˙∼˙\dot\simx∼˙N(0,1)x∼˙N(0,1)x \mathrel{\dot\sim} \mathcal N(0,1) Оказывается, легче найти, как правильно его набирать: tex.SE объясняет, что нужно печатать \mathrel{\dot\sim}вместо того, \dot\simчтобы просто исправить проблему с пробелами - чем найти, что это на самом деле означает. До сих пор он …

10 mathematical-statistics notation

1

При повторной параметризации функции правдоподобия, достаточно ли просто вставить преобразованную переменную вместо формулы изменения переменных?

Предположим, что я пытаюсь повторно параметризовать функцию правдоподобия, которая экспоненциально распределена. Если моя первоначальная функция правдоподобия: p(y∣θ)=θe−θyp(y∣θ)=θe−θy p(y \mid \theta) = \theta e^{-\theta y} и я хотел бы повторно параметризовать его, используя , поскольку - это не случайная величина, а параметр, достаточно просто подключить плагин?ϕ=1θϕ=1θ\phi = \frac{1}{\theta}θθ\theta Я имею в …

10 regression bayesian mathematical-statistics

1

Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как термин появляется чаще. С этой точки зрения …

10 machine-learning clustering mathematical-statistics text-mining natural-language

Вопросы с тегом «mathematical-statistics»