Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Насколько хорошо множественная регрессия действительно может «контролировать» ковариаты?
Мы все знакомы с наблюдательными исследованиями, которые пытаются установить причинно-следственную связь между нерандомизированным предиктором X и результатом путем включения каждого мыслимого потенциального препятствия в модель множественной регрессии. Таким образом, «контролируя» всех нарушителей, мы утверждаем, что мы изолируем эффект предиктора интереса. Я испытываю растущий дискомфорт от этой идеи, основанной главным образом …

1
Как интерпретировать ANOVA и MANOVA типа I, типа II и типа III?
Мой основной вопрос заключается в том, как интерпретировать выходные данные (коэффициенты, F, P) при проведении ANOVA типа I (последовательного)? Моя конкретная исследовательская проблема немного сложнее, поэтому я разобью свой пример на части. Во-первых, если меня интересует влияние плотности пауков (X1), скажем, на рост растений (Y1) и я сажал саженцы в …

8
Каковы минусы байесовского анализа?
Каковы некоторые практические возражения против использования байесовских статистических методов в любом контексте? Нет, я не имею в виду обычное придурок по поводу выбора предшествующего. Я буду рад, если это не получит ответов.
45 bayesian 

6
Как выполнить тест с использованием R, чтобы проверить, соответствуют ли данные нормальному распределению
У меня есть набор данных со следующей структурой: a word | number of occurrence of a word in a document | a document id Как я могу выполнить тест для нормального распределения в R? Возможно, это простой вопрос, но я новичок в R.

6
Мотивация колмогоровского расстояния между распределениями
Есть много способов измерить, насколько похожи два вероятностных распределения. Среди методов, которые популярны (в разных кругах): Колмогоровское расстояние: расстояние между функциями распределения; расстояние Канторовича-Рубинштейна: максимальная разница между ожиданиями относительно двух распределений функций с постоянной Липшица 111 , которая также оказывается расстоянием L1L1L^1 между функциями распределения; расстояние с ограничением по Липшицу: …

5
Что мы можем сказать о средней численности населения из выборки 1?
Мне интересно, что мы можем сказать, если вообще что-нибудь, о значении населения, когда у меня есть только одно измерение, (размер выборки 1). Очевидно, мы хотели бы иметь больше измерений, но мы не можем их получить.y 1μμ\muy1y1y_1 Мне кажется, что поскольку среднее значение выборки, , тривиально равно , то . Однако …

8
Все модели бесполезны? Возможна ли какая-то точная модель - или полезная?
Этот вопрос был в моей голове более месяца. Выпуск Amstat News за февраль 2015 года содержит статью профессора Беркли Марка ван дер Лаана, которая ругает людей за использование неточных моделей. Он утверждает, что при использовании моделей статистика становится искусством, а не наукой. По его словам, всегда можно использовать «точную модель», …

5
Регрессия, когда остатки OLS обычно не распределяются
На этом сайте есть несколько потоков, обсуждающих, как определить, асимптотически ли нормально распределены остатки OLS . В этом превосходном ответе представлен другой способ оценки нормальности остатков с помощью R-кода . Это еще одно обсуждение практической разницы между стандартизированными и наблюдаемыми остатками. Но допустим, что остатки определенно не распределяются нормально, как …

10
Что такое большие данные?
Мне несколько раз задавали вопрос: Что такое Big-Data? И студентами, и моими родственниками, которые накапливают шум вокруг статистики и ML. Я нашел это резюме . И я чувствую, что согласен с единственным ответом там. На странице Википедии также есть некоторые комментарии, но я не уверен, действительно ли я согласен со …
44 large-data 


4
Почему статистики говорят, что незначительный результат означает «вы не можете отвергнуть ноль», а не принять нулевую гипотезу?
Традиционные статистические тесты, такие как t-критерий с двумя выборками, сосредоточены на попытке устранить гипотезу о том, что нет разницы между функцией двух независимых выборок. Затем мы выбираем уровень достоверности и говорим, что если разница средних значений превышает уровень 95%, мы можем отклонить нулевую гипотезу. Если нет, мы «не можем отвергнуть …

6
Какой ваш любимый статистический график?
Это мой любимый Этот пример в юмористическом ключе (заслуга моего бывшего профессора, Стивена Гортмейкера), но мне также интересны графики, на которых вы чувствуете себя прекрасно, которые отражают статистическую информацию или метод, а также ваши идеи о них. Одна запись за ответ. Конечно, этот вопрос стоит в одном ряду с тем, …

4
Как ядра применяются к картам объектов для создания других карт функций?
Я пытаюсь понять сверточную часть сверточных нейронных сетей. Глядя на следующий рисунок: У меня нет проблем с пониманием первого слоя свертки, где у нас есть 4 разных ядра (размером ), которые мы сворачиваем с входным изображением для получения 4 карт характеристик.к × кК×Кk \times k Что я не понимаю, так …

5
Статистика публикуется в научных статьях
Я прочитал много научных статей об эволюции / экологии, иногда с конкретной целью увидеть, как статистика используется «в реальном мире» за пределами учебника. Обычно я воспринимаю статистику в статьях как Евангелие и использую эти документы, чтобы помочь в моем статистическом обучении. В конце концов, если для написания статьи потребовались годы, …

1
Дисперсия произведения нескольких случайных величин
Мы знаем ответ для двух независимых переменных: Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 Однако, если мы возьмем произведение более двух переменных, , каким будет ответ с точки зрения отклонений и ожидаемых значений каждой переменной?Var(X1X2⋯Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.