Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Интерпретация сюжета (глм.модель)
Может кто-нибудь сказать мне, как интерпретировать графики «остатки против подгонки», «нормальный q-q», «масштаб-местоположение» и «остатки против плеча»? Я подгоняю биномиальный GLM, сохраняю его и затем строю.

2
Как интерпретировать p-значение критерия Колмогорова-Смирнова (питон)?
У меня есть два примера, которые я хочу проверить (используя python), если они взяты из одного и того же дистрибутива. Для этого я использую статистическую функцию ks_2samp из scipy.stats. Он возвращает 2 значения, и я нахожу трудности, как их интерпретировать. Помоги пожалуйста!
30 python 

1
что означают цифры в отчете о классификации sklearn?
Ниже приведен пример, извлеченный из документации sklearn.metrics.classification_report. Что я не понимаю, так это то, почему существуют значения f1-показателя, точности и отзыва для каждого класса, где я считаю, что класс является меткой предиктора? Я думал, что оценка f1 говорит вам об общей точности модели. Кроме того, что говорит нам колонка поддержки? …

7
Каковы отрасли статистики?
В математике есть такие отрасли, как алгебра, анализ, топология и т. Д. В машинном обучении есть обучение под присмотром, без присмотра и подкрепление. В каждой из этих ветвей есть более тонкие ветви, которые еще больше разделяют методы. У меня проблемы с проведением параллели со статистикой. Какими будут основные отрасли статистики …

3
Расширение парадокса дня рождения более чем на 2 человека
В традиционном парадоксе дня рождения вопрос заключается в том, «каковы шансы, что два или более человека в группе из nnn человек разделяют день рождения». Я застрял на проблеме, которая является продолжением этого. Вместо того , чтобы знать вероятность того, что два человека разделить день рождения, мне нужно расширить вопрос , …

3
Если X и Y некоррелированы, X ^ 2 и Y также некоррелированы?
Если две случайные величины и некоррелированы, можем ли мы также знать, что и некоррелированы? Моя гипотеза - да.Y X 2 YИксXXYYYИкс2X2X^2YYY E [ X Y ] = E [ X ] E [ Y ]Икс, YX,YX, Y некоррелированный означает илиЕ[ XY] = E[ X] E[ Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] Е[ XY] = ∫х …

6
Почему бы не использовать третью производную для численной оптимизации?
Если гессианы так хороши для оптимизации (см., Например , метод Ньютона ), зачем останавливаться на достигнутом? Давайте использовать третий, четвертый, пятый и шестой производные? Почему бы нет?

7
Какой смысл в анализе временных рядов?
В чем смысл анализа временных рядов? Существует множество других статистических методов, таких как регрессия и машинное обучение, которые имеют очевидные варианты использования: регрессия может предоставить информацию о взаимосвязи между двумя переменными, в то время как машинное обучение отлично подходит для прогнозирования. Но пока я не вижу, для чего нужен анализ …

5
Различение между двумя группами в статистике и машинном обучении: проверка гипотез против классификации и кластеризации
Предположим, у меня есть две группы данных, помеченные A и B (каждая из которых содержит, например, 200 образцов и 1 особенность), и я хочу знать, отличаются ли они. Я мог бы: а) выполнить статистический тест (например, t-тест), чтобы увидеть, отличаются ли они статистически. б) использовать контролируемое машинное обучение (например, классификатор …

4
Когда я должен сбалансировать классы в наборе данных обучения?
У меня был онлайн-курс, где я узнал, что несбалансированные классы в данных обучения могут привести к проблемам, потому что алгоритмы классификации идут по правилу большинства, поскольку это дает хорошие результаты, если дисбаланс слишком велик. При выполнении задания необходимо было сбалансировать данные с помощью заниженной выборки для большинства классов. Однако в …

3
Может ли метаанализ исследований, которые «не являются статистически значимыми», привести к «существенному» заключению?
Мета-анализ включает в себя ряд исследований, все из которых сообщили о значении P, превышающем 0,05. Возможно ли для общего метаанализа сообщить значение P менее 0,05? При каких обстоятельствах? (Я почти уверен, что ответ - да, но мне нужна ссылка или объяснение.)

4
Поддержал ли журнал Science анализ анализов в Саду Форка?
Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если …

5
Есть ли объяснение тому, почему существует так много природных явлений, которые следуют нормальному распределению?
Я думаю, что это увлекательная тема, и я не до конца ее понимаю. Какой закон физики делает так, чтобы у многих природных явлений было нормальное распределение? Казалось бы, более интуитивно понятно, что они будут иметь равномерное распределение. Мне так трудно это понять, и я чувствую, что мне не хватает некоторой …


5
Как работать с иерархическими / вложенными данными в машинном обучении
Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.