Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Нижний индекс в ожиданиях
Каково точное значение индексной записи в условных ожиданиях в рамках теории меры? Эти индексы не появляются в определении условного ожидания, но мы можем видеть, например, на этой странице википедии . (Обратите внимание, что это было не всегда так, одна и та же страница несколько месяцев назад).EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] Например, что должно с …

3
Когда использовать обобщенные оценочные уравнения и модели со смешанными эффектами?
Я довольно долго использовал модели смешанных эффектов с продольными данными. Хотелось бы, чтобы я соответствовал отношениям AR в lmer (думаю, я прав, что не могу этого сделать?), Но я не думаю, что это отчаянно важно, поэтому я не слишком беспокоюсь. Я только что натолкнулся на обобщенные оценочные уравнения (GEE), и …
63 mixed-model  gee 

9
Список ситуаций, в которых байесовский подход проще, практичнее или удобнее
В статистике было много споров между байесовцами и частыми лицами. Я обычно нахожу это довольно отталкивающим (хотя я думаю, что это утихло). С другой стороны, я встречал несколько человек, которые придерживаются совершенно прагматичного взгляда на проблему, говоря, что иногда удобнее проводить анализ часто, а иногда проще проводить байесовский анализ. Я …

3
Ссылки, содержащие аргументы против проверки значимости нулевой гипотезы?
За последние несколько лет я прочитал ряд статей, в которых приводил доводы против использования в науке проверки значимости нулевых гипотез, но не думал, что следует вести постоянный список. Недавно мой коллега попросил у меня такой список, и я подумал, что я бы попросил всех присутствующих помочь в его создании. Для …

10
Талеб и Черный лебедь
Книга Талеба «Черный лебедь» была бестселлером New York Times, когда вышла несколько лет назад. Книга вышла во втором издании. После встречи со статистиками в JSM (ежегодная статистическая конференция) Талеб несколько смягчил свою критику статистики. Но смысл книги в том, что статистика не очень полезна, потому что она опирается на нормальное …

8
За PCA следует ротация (например, varimax), все еще PCA?
Я пытался воспроизвести некоторые исследования (с использованием PCA) из SPSS в R. По моему опыту, principal() функция из пакета psychбыла единственной функцией, которая приблизилась (или, если моя память мне не изменяет), чтобы соответствовать выводу. Чтобы соответствовать тем же результатам, что и в SPSS, мне пришлось использовать параметр principal(..., rotate = …

5
Объясните разницу между множественной регрессией и многомерной регрессией с минимальным использованием символов / математики
Являются ли множественные и многомерные регрессии действительно разными? Что такое вариация в любом случае?


4
Softmax против сигмоидальной функции в логистическом классификаторе?
От чего зависит выбор функции (Softmax vs Sigmoid) в классификаторе логистики? Предположим, есть 4 выходных класса. Каждая из вышеприведенных функций дает вероятности того, что каждый класс является правильным выводом. Так какой же взять за классификатор?

4
Как сообщать о крошечных
Для некоторых тестов в R, существует нижний предел на р-значение расчетов 2,22 ⋅ 10- 162.22⋅10−162.22 \cdot 10^{-16} . Я не уверен, почему это число, если для этого есть веская причина или оно просто произвольно. Многие другие пакеты статистики просто идут 0.0001, так что это намного более высокий уровень точности. Но …

3
В чем разница между нейронной сетью и сетью глубоких убеждений?
У меня складывается впечатление, что когда люди обращаются к сети «глубокого убеждения», это, по сути, нейронная сеть, но очень большая. Правильно ли это или сеть глубокого убеждения также подразумевает, что сам алгоритм отличается (т. Е. Нет нейронной сети с прямой связью, но, возможно, что-то с петлями обратной связи)?

6
Почему алгоритм кластеризации k-средних использует только евклидову метрику расстояния?
Есть ли конкретная цель с точки зрения эффективности или функциональности, почему алгоритм k-средних не использует, например, косинусное (дис) сходство в качестве метрики расстояния, а может использовать только евклидову норму? В целом, будет ли метод K-средних соответствовать и быть правильным, когда другие расстояния, кроме евклидовых, рассматриваются или используются? [Дополнение от @ttnphns. …

4
Предположения относительно начальных оценок неопределенности
Я ценю полезность начальной загрузки при получении оценок неопределенности, но меня всегда беспокоит одна вещь: распределение, соответствующее этим оценкам, является распределением, определяемым выборкой. В целом, кажется плохой идеей полагать, что частоты наших выборок выглядят точно так же, как и базовое распределение, так почему обоснованно / приемлемо получать оценки неопределенности на …

3
Как на самом деле построить образец дерева из randomForest :: getTree ()? [закрыто]
Кто-нибудь получил библиотеку или предложения кода о том, как на самом деле построить пару образцов деревьев из: getTree(rfobj, k, labelVar=TRUE) (Да, я знаю, что вы не должны делать это оперативно, RF - это черный ящик и т. Д. И т. Д. Я хочу визуально проверить работоспособность дерева, чтобы убедиться, что …

8
Если A и B связаны с C, почему A и B не обязательно связаны?
Я знаю эмпирически, что это так. Я только что разработал модели, которые сталкиваются с этой загадкой. Я также подозреваю, что это не обязательно ответ да / нет. Я имею в виду, что если и A, и B соотносятся с C, это может иметь некоторое значение в отношении корреляции между A …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.