Статистика и большие данные distributions

2

Устойчиво ли распределение Пуассона и существуют ли формулы обращения для MGF?

Во-первых, у меня вопрос о том, является ли распределение Пуассона "стабильным" или нет. Очень наивно (и я не слишком уверен в «стабильных» распределениях), я разработал распределение линейной комбинации распределенных по Пуассону RV, используя продукт MGF. Похоже, я получаю еще один Пуассон с параметром, равным линейной комбинации параметров отдельных RV. Итак, …

11 distributions poisson-distribution mgf

2

Надежное многомерное гауссово вписывание в R

Мне нужно согласовать обобщенное распределение Гаусса с 7-мерным облаком точек, содержащим довольно значительное число выбросов с высоким кредитным плечом. Вы знаете какой-нибудь хороший пакет R для этой работы?

11 r distributions normal-distribution robust

2

Упорядочить статистику (например, минимум) бесконечного набора переменных хи-квадрат?

Это мой первый раз здесь, поэтому, пожалуйста, дайте мне знать, если я смогу уточнить свой вопрос каким-либо образом (включая форматирование, теги и т. Д.). (И, надеюсь, я смогу редактировать позже!) Я пытался найти ссылки и пытался решить сам, используя индукцию, но потерпел неудачу в обоих случаях. Я пытаюсь упростить распределение, …

11 distributions chi-squared exponential order-statistics minimum

3

Как сравнить два набора данных с графиком QQ, используя ggplot2?

Как новичок в области статистики и R, мне было очень трудно пытаться сгенерировать qqplots с соотношением сторон 1: 1. ggplot2, кажется, предлагает гораздо больший контроль над построением графиков, чем стандартные пакеты графиков R, но я не вижу, как выполнить qqplot в ggplot2 для сравнения двух наборов данных. Итак, мой вопрос, …

11 r distributions ggplot2 qq-plot

2

Использование пуассоновской регрессии для непрерывных данных?

Можно ли использовать распределение Пуассона для анализа как непрерывных, так и дискретных данных? У меня есть несколько наборов данных, в которых переменные ответа являются непрерывными, но напоминают распределение Пуассона, а не нормальное распределение. Однако распределение Пуассона является дискретным распределением и обычно связано с числами или счетами.

11 distributions regression poisson-distribution continuous-data

2

Почему в тесте Макнемара используется хи-квадрат, а не нормальное распределение?

Я только что заметил, как в неточном тесте Макнемара используется асимптотическое распределение хи-квадрат. Но поскольку точный тест (для таблицы двух случаев) основан на биномиальном распределении, почему не принято предлагать нормальное приближение к биномиальному распределению? Спасибо.

11 distributions binomial chi-squared normal-distribution

3

Аппроксимация для дискретного распределения

Каков наилучший способ аппроксимировать для двух заданных целых чисел когда вы знаете среднее , дисперсию , асимметрию и избыточный эксцесс дискретного распределения и из (ненулевых) мер формы и что нормальное приближение не подходит?Pr[n≤X≤m]Pr[n≤X≤m]Pr[n \leq X \leq m]m,nm,nm,nμμ\muσ2σ2\sigma^2γ1γ1\gamma_1γ2γ2\gamma_2XXXγ1γ1\gamma_1γ2γ2\gamma_2 Обычно я использовал бы нормальное приближение с целочисленной коррекцией ... Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n - \text{½})\leq …

11 probability distributions moments approximation saddlepoint-approximation

3

Оценка среднего и st dev усеченной гауссовой кривой без пика

Предположим, у меня есть черный ящик, который генерирует данные после нормального распределения со средним m и стандартным отклонением s. Предположим, однако, что всякий раз, когда он выводит значение <0, он ничего не записывает (даже не может сказать, что он вывел такое значение). У нас есть усеченное гауссовское распределение без скачка. …

11 distributions estimation

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Интуитивно понятно, почему кросс-энтропия является мерой расстояния двух распределений вероятности?

Для двух дискретных распределений и перекрестная энтропия определяется какpppqqq H(p,q)=−∑xp(x)logq(x).H(p,q)=−∑xp(x)log⁡q(x),H(p,q)=-\sum_x p(x)\log q(x). Интересно, почему это будет интуитивно понятная мера расстояния между двумя распределениями вероятностей? Я вижу, что - энтропия , которая измеряет «удивление» . - это мера, которая частично заменяет на . Я до сих пор не понимаю интуитивное значение …

11 probability distributions cross-entropy

1

Измерьте равномерность распределения по дням недели

У меня похожая проблема с вопросом, заданным здесь: Как измерить неоднородность распределения? У меня есть набор распределения вероятностей по дням недели. Я хочу измерить, насколько близко каждое распределение к (1 / 7,1 / 7, ..., 1/7). В данный момент я использую ответ на вышеуказанный вопрос; норма L2, которая имеет значение …

11 probability distributions random-variable uniform measurement

4

Разделить данные на N равных групп

У меня есть датафрейм, который содержит значения в 4 столбцах: Например: ID, price, click count,rating Я хотел бы «разбить» этот фрейм данных на N разных групп, где каждая группа будет иметь одинаковое количество строк с одинаковым распределением цены, количества кликов и атрибутов рейтингов. Любой совет очень важен, так как я …

11 r distributions

2

Что такое распределение логов?

Я читаю учебник по машинному обучению (Data Mining by Witten, et al., 2011) и наткнулся на этот отрывок: ... Кроме того, могут использоваться разные дистрибутивы. Хотя нормальное распределение обычно является хорошим выбором для числовых атрибутов, оно не подходит для атрибутов, которые имеют заранее определенный минимум, но не имеют верхней границы; …

11 machine-learning distributions

3

Когда наименьшие квадраты будут плохой идеей?

Если у меня есть модель регрессии: где и ,Y= Хβ+ εY=Xβ+ε Y = X\beta + \varepsilon V [ε]=Id∈ Rn × nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n}E [ε]=(0,…,0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) когда использование , обычного метода наименьших квадратов , будет плохим выбором для оценки?βМНКβOLS\beta_{\text{OLS}}ββ\beta Я пытаюсь понять пример, где …

11 regression distributions least-squares

3

Как проверить, соответствуют ли мои данные журналу нормального распределения?

Я хотел бы проверить, соответствуют Rли мои данные нормальному логарифму или парето. Как я мог это сделать? Возможно, это ks.testможет помочь мне, но как я могу получить параметры αα\alpha и kkk для распределения Парето для моих данных?

11 r regression distributions lognormal pareto-distribution

Вопросы с тегом «distributions»