Статистика и большие данные

1

Каково точное значение индексной записи в условных ожиданиях в рамках теории меры? Эти индексы не появляются в определении условного ожидания, но мы можем видеть, например, на этой странице википедии . (Обратите внимание, что это было не всегда так, одна и та же страница несколько месяцев назад).EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] Например, что должно с …

64 conditional-expectation notation

3

Когда использовать обобщенные оценочные уравнения и модели со смешанными эффектами?

Я довольно долго использовал модели смешанных эффектов с продольными данными. Хотелось бы, чтобы я соответствовал отношениям AR в lmer (думаю, я прав, что не могу этого сделать?), Но я не думаю, что это отчаянно важно, поэтому я не слишком беспокоюсь. Я только что натолкнулся на обобщенные оценочные уравнения (GEE), и …

63 mixed-model gee

9

Список ситуаций, в которых байесовский подход проще, практичнее или удобнее

В статистике было много споров между байесовцами и частыми лицами. Я обычно нахожу это довольно отталкивающим (хотя я думаю, что это утихло). С другой стороны, я встречал несколько человек, которые придерживаются совершенно прагматичного взгляда на проблему, говоря, что иногда удобнее проводить анализ часто, а иногда проще проводить байесовский анализ. Я …

63 bayesian frequentist

3

Ссылки, содержащие аргументы против проверки значимости нулевой гипотезы?

За последние несколько лет я прочитал ряд статей, в которых приводил доводы против использования в науке проверки значимости нулевых гипотез, но не думал, что следует вести постоянный список. Недавно мой коллега попросил у меня такой список, и я подумал, что я бы попросил всех присутствующих помочь в его создании. Для …

63 hypothesis-testing statistical-significance references p-value

10

Талеб и Черный лебедь

Книга Талеба «Черный лебедь» была бестселлером New York Times, когда вышла несколько лет назад. Книга вышла во втором издании. После встречи со статистиками в JSM (ежегодная статистическая конференция) Талеб несколько смягчил свою критику статистики. Но смысл книги в том, что статистика не очень полезна, потому что она опирается на нормальное …

63 extreme-value rare-events

8

За PCA следует ротация (например, varimax), все еще PCA?

Я пытался воспроизвести некоторые исследования (с использованием PCA) из SPSS в R. По моему опыту, principal() функция из пакета psychбыла единственной функцией, которая приблизилась (или, если моя память мне не изменяет), чтобы соответствовать выводу. Чтобы соответствовать тем же результатам, что и в SPSS, мне пришлось использовать параметр principal(..., rotate = …

63 r spss pca factor-analysis factor-rotation

5

Объясните разницу между множественной регрессией и многомерной регрессией с минимальным использованием символов / математики

Являются ли множественные и многомерные регрессии действительно разными? Что такое вариация в любом случае?

63 regression multiple-regression terminology multivariate-regression

10

В чем разница между дискретными данными и непрерывными данными?

63 continuous-data discrete-data

4

Softmax против сигмоидальной функции в логистическом классификаторе?

От чего зависит выбор функции (Softmax vs Sigmoid) в классификаторе логистики? Предположим, есть 4 выходных класса. Каждая из вышеприведенных функций дает вероятности того, что каждый класс является правильным выводом. Так какой же взять за классификатор?

63 machine-learning logistic classification softmax

4

Как сообщать о крошечных

Для некоторых тестов в R, существует нижний предел на р-значение расчетов 2,22 ⋅ 10- 162.22⋅10−162.22 \cdot 10^{-16} . Я не уверен, почему это число, если для этого есть веская причина или оно просто произвольно. Многие другие пакеты статистики просто идут 0.0001, так что это намного более высокий уровень точности. Но …

63 r p-value reporting precision

3

В чем разница между нейронной сетью и сетью глубоких убеждений?

У меня складывается впечатление, что когда люди обращаются к сети «глубокого убеждения», это, по сути, нейронная сеть, но очень большая. Правильно ли это или сеть глубокого убеждения также подразумевает, что сам алгоритм отличается (т. Е. Нет нейронной сети с прямой связью, но, возможно, что-то с петлями обратной связи)?

62 machine-learning neural-networks deep-learning deep-belief-networks

6

Почему алгоритм кластеризации k-средних использует только евклидову метрику расстояния?

Есть ли конкретная цель с точки зрения эффективности или функциональности, почему алгоритм k-средних не использует, например, косинусное (дис) сходство в качестве метрики расстояния, а может использовать только евклидову норму? В целом, будет ли метод K-средних соответствовать и быть правильным, когда другие расстояния, кроме евклидовых, рассматриваются или используются? [Дополнение от @ttnphns. …

62 clustering k-means distance-functions euclidean

4

Предположения относительно начальных оценок неопределенности

Я ценю полезность начальной загрузки при получении оценок неопределенности, но меня всегда беспокоит одна вещь: распределение, соответствующее этим оценкам, является распределением, определяемым выборкой. В целом, кажется плохой идеей полагать, что частоты наших выборок выглядят точно так же, как и базовое распределение, так почему обоснованно / приемлемо получать оценки неопределенности на …

62 bootstrap uncertainty

3

Как на самом деле построить образец дерева из randomForest :: getTree ()? [закрыто]

Кто-нибудь получил библиотеку или предложения кода о том, как на самом деле построить пару образцов деревьев из: getTree(rfobj, k, labelVar=TRUE) (Да, я знаю, что вы не должны делать это оперативно, RF - это черный ящик и т. Д. И т. Д. Я хочу визуально проверить работоспособность дерева, чтобы убедиться, что …

62 r data-visualization random-forest cart

8

Если A и B связаны с C, почему A и B не обязательно связаны?

Я знаю эмпирически, что это так. Я только что разработал модели, которые сталкиваются с этой загадкой. Я также подозреваю, что это не обязательно ответ да / нет. Я имею в виду, что если и A, и B соотносятся с C, это может иметь некоторое значение в отношении корреляции между A …

62 correlation cross-correlation