Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Какова интуиция за условным распределением Гаусса?
Предположим, что . Тогда условное распределение условии, что является многомерным, обычно распределяется со средним:X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma})X1X1X_1X2=x2X2=x2X_2 = x_2 E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) и дисперсия:Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} Имеет смысл, что дисперсия будет уменьшаться, поскольку у нас больше информации. Но какова интуиция …

7
График отношений между двумя порядковыми переменными
Какой график подходит для иллюстрации взаимосвязи между двумя порядковыми переменными? Несколько вариантов, которые я могу придумать: Разброс графиков с добавлением случайного дрожания, чтобы точки, скрывающие друг друга По-видимому, стандартная графика - Minitab называет это «графиком отдельных значений». На мой взгляд, это может вводить в заблуждение, поскольку визуально способствует некоторой линейной …

2
Интуиция позади, почему парадокс Штейна применим только в измерениях
Пример Стейна показывает, что оценка максимального правдоподобия nnn нормально распределенных переменных со средними значениями μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n и дисперсиями 111 недопустима (при функции квадрата потерь) тогда и только тогда, когда n≥3n≥3n\ge 3 . Для ясного доказательства см. Первую главу «Вывод в крупном масштабе: эмпирические байесовские методы оценки, тестирования и прогнозирования » Брэдли …

8
Подводные камни в анализе временных рядов
Я только начинаю самообучаться в анализе временных рядов. Я заметил, что есть ряд потенциальных ловушек, которые не применимы к общей статистике. Итак, опираясь на то, что общие статистические грехи? , Я бы хотел спросить: Каковы общие подводные камни или статистические грехи в анализе временных рядов? Это задумано как вики сообщества, …

6
Процент перекрывающихся областей двух нормальных распределений
Мне было интересно, учитывая два нормальных распределения с и \ sigma_2, \ \ mu_2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 Как я могу рассчитать процент перекрывающихся регионов двух распределений? Я полагаю, что у этой проблемы есть определенное имя, знаете ли вы какое-либо конкретное имя, описывающее эту проблему? Вам известно …

5
Понимание регрессий - роль модели
Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры? Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и контролировалось на различные факторы, и была использована …

5
Как рассчитать псевдо- из логистической регрессии R?
Отчет Кристофера Мэннинга по логистической регрессии в R показывает логистическую регрессию в R следующим образом: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Некоторый вывод: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q Max -3.24384 …

4
Что такое контрастная матрица?
Что именно контрастная матрица (термин, относящийся к анализу с категориальными предикторами) , и как точно указана контрастность матрица? Т.е. что такое столбцы, что такое строки, каковы ограничения на эту матрицу и что означает число в столбце jи строке i? Я пытался заглянуть в документы и веб, но кажется, что все …

1
Понимание «почти все локальные минимумы имеют значение функции, очень похожее на глобальный оптимум»
В недавнем сообщении в блоге Rong Ge было сказано, что: Считается, что для многих задач, включая изучение глубинных сетей, почти все локальные минимумы имеют очень близкое значение функции к глобальному оптимуму, и, следовательно, нахождение локального минимума достаточно хорошо. Откуда эта вера?

1
KL расхождение между двумя многомерными гауссианами
У меня проблемы с выводом формулы дивергенции KL, предполагающей два многомерных нормальных распределения. Я сделал одномерный случай довольно легко. Тем не менее, прошло довольно много времени с тех пор, как я взял статистику по математике, поэтому у меня возникли некоторые проблемы с распространением ее на многовариантный вариант. Я уверен, что …

6
В чем разница между оценкой и прогнозом?
Например, у меня есть данные о прошлых потерях, и я рассчитываю экстремальные квантили (величина риска или вероятная максимальная потеря). Полученные результаты предназначены для оценки потерь или их прогнозирования? Где можно провести черту? Я смущен.



4
Нормализация против масштабирования
В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы должны …

3
Интерпретация логарифмически преобразованного предиктора и / или ответа
Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.