Статистика и большие данные

3

Какова интуиция за условным распределением Гаусса?

Предположим, что . Тогда условное распределение условии, что является многомерным, обычно распределяется со средним:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) и дисперсия:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Имеет смысл, что дисперсия будет уменьшаться, поскольку у нас больше информации. Но какова интуиция …

46 normal-distribution multivariate-analysis intuition

7

График отношений между двумя порядковыми переменными

Какой график подходит для иллюстрации взаимосвязи между двумя порядковыми переменными? Несколько вариантов, которые я могу придумать: Разброс графиков с добавлением случайного дрожания, чтобы точки, скрывающие друг друга По-видимому, стандартная графика - Minitab называет это «графиком отдельных значений». На мой взгляд, это может вводить в заблуждение, поскольку визуально способствует некоторой линейной …

46 data-visualization categorical-data ordinal-data scatterplot

2

Интуиция позади, почему парадокс Штейна применим только в измерениях

Пример Стейна показывает, что оценка максимального правдоподобия nnn нормально распределенных переменных со средними значениями μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n и дисперсиями 111 недопустима (при функции квадрата потерь) тогда и только тогда, когда n≥3n≥3n\ge 3 . Для ясного доказательства см. Первую главу «Вывод в крупном масштабе: эмпирические байесовские методы оценки, тестирования и прогнозирования » Брэдли …

46 maximum-likelihood unbiased-estimator intuition steins-phenomenon

8

Подводные камни в анализе временных рядов

Я только начинаю самообучаться в анализе временных рядов. Я заметил, что есть ряд потенциальных ловушек, которые не применимы к общей статистике. Итак, опираясь на то, что общие статистические грехи? , Я бы хотел спросить: Каковы общие подводные камни или статистические грехи в анализе временных рядов? Это задумано как вики сообщества, …

46 time-series self-study

6

Процент перекрывающихся областей двух нормальных распределений

Мне было интересно, учитывая два нормальных распределения с и \ sigma_2, \ \ mu_2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Как я могу рассчитать процент перекрывающихся регионов двух распределений? Я полагаю, что у этой проблемы есть определенное имя, знаете ли вы какое-либо конкретное имя, описывающее эту проблему? Вам известно …

46 normal-distribution similarities metric bhattacharyya

5

Понимание регрессий - роль модели

Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры? Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и контролировалось на различные факторы, и была использована …

46 regression modeling epidemiology log-linear

5

Как рассчитать псевдо- из логистической регрессии R?

Отчет Кристофера Мэннинга по логистической регрессии в R показывает логистическую регрессию в R следующим образом: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Некоторый вывод: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 …

46 r logistic log-likelihood

4

Что такое контрастная матрица?

Что именно контрастная матрица (термин, относящийся к анализу с категориальными предикторами) , и как точно указана контрастность матрица? Т.е. что такое столбцы, что такое строки, каковы ограничения на эту матрицу и что означает число в столбце jи строке i? Я пытался заглянуть в документы и веб, но кажется, что все …

46 regression categorical-data definition contrasts categorical-encoding

1

Понимание «почти все локальные минимумы имеют значение функции, очень похожее на глобальный оптимум»

В недавнем сообщении в блоге Rong Ge было сказано, что: Считается, что для многих задач, включая изучение глубинных сетей, почти все локальные минимумы имеют очень близкое значение функции к глобальному оптимуму, и, следовательно, нахождение локального минимума достаточно хорошо. Откуда эта вера?

46 machine-learning neural-networks optimization deep-learning

1

KL расхождение между двумя многомерными гауссианами

У меня проблемы с выводом формулы дивергенции KL, предполагающей два многомерных нормальных распределения. Я сделал одномерный случай довольно легко. Тем не менее, прошло довольно много времени с тех пор, как я взял статистику по математике, поэтому у меня возникли некоторые проблемы с распространением ее на многовариантный вариант. Я уверен, что …

46 normal-distribution kullback-leibler proof

6

В чем разница между оценкой и прогнозом?

Например, у меня есть данные о прошлых потерях, и я рассчитываю экстремальные квантили (величина риска или вероятная максимальная потеря). Полученные результаты предназначены для оценки потерь или их прогнозирования? Где можно провести черту? Я смущен.

46 estimation predictor prediction-interval

7

Инструменты анализа выживания в Python [закрыто]

Мне интересно, есть ли какие-нибудь пакеты для Python, которые способны выполнять анализ выживания. Я использовал пакет для выживания в R, но хотел бы перенести свою работу на python.

46 survival python

6

Интуитивное объяснение компромисса смещения?

Я ищу интуитивное объяснение компромисса смещения дисперсии, как в целом, так и конкретно в контексте линейной регрессии.

46 regression variance bias

4

Нормализация против масштабирования

В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы должны …

46 data-transformation scales normality-assumption normalization

3

Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model