Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных


8
Означает ли причинность корреляцию?
Корреляция не подразумевает причинно-следственную связь, так как может быть много объяснений корреляции. Но подразумевает ли причинность корреляцию? Интуитивно я думаю, что наличие причинно-следственной связи означает, что существует определенная корреляция. Но моя интуиция не всегда хорошо служила мне в статистике. Означает ли причинность корреляцию?

5
В чем разница между нормализацией и стандартизацией?
На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они кажутся взаимозаменяемыми и с другими возможностями. …

9
Когда можно удалить перехват в модели линейной регрессии?
Я работаю на моделях линейной регрессии и задаюсь вопросом, каковы условия удаления термина «перехват». Сравнивая результаты двух разных регрессий, где один имеет перехват, а другой нет, я замечаю, что функции без перехвата намного выше. Существуют ли определенные условия или предположения, которым я должен следовать, чтобы убедиться, что удаление термина перехвата …

9
Числовой пример для понимания максимизации ожидания
Я пытаюсь понять алгоритм EM, чтобы иметь возможность его реализовать и использовать. Я провел целый день, читая теорию и документ, где EM используется для отслеживания самолета с использованием информации о местоположении, поступающей с радара. Честно говоря, я не думаю, что полностью понимаю основную идею. Может кто-нибудь указать мне на числовой …


6
Почему p-значения равномерно распределены по нулевой гипотезе?
Недавно я нашел в статье Klammer, et al. утверждение, что p-значения должны быть равномерно распределены. Я верю авторам, но не могу понять, почему это так. Klammer, AA, Park, CY, и Stafford Noble, W. (2009) Статистическая калибровка функции SEQUEST XCorr . Журнал исследований протеома . 8 (4): 2106–2113.
115 p-value  uniform 

3
Как стандартные ошибки коэффициентов рассчитываются в регрессии?
Для моего собственного понимания я заинтересован в том, чтобы вручную повторить вычисление стандартных ошибок оценочных коэффициентов, поскольку, например, они поставляются с выходными данными lm()функции R, но не смогли ее определить. Какая формула / реализация используется?

16
Если 900 из 1000 человек говорят, что машина синего цвета, какова вероятность того, что она синего цвета?
Первоначально это возникло в связи с некоторой работой, которую мы проводим с моделью для классификации естественного текста, но я упростил ее ... Возможно, слишком много. У вас есть синяя машина (по некоторым объективным научным показателям - она ​​синяя). Вы показываете это до 1000 человек. 900 говорят, что это синий. 100 …
114 probability 

2
Вывод условных распределений многомерного нормального распределения
У нас есть многомерный нормальный вектор Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma) . Попробуйте разделить μμ\boldsymbol\mu и YY{\boldsymbol Y} на μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} с похожим разделением ΣΣ\Sigma на [Σ11Σ21Σ12Σ22][Σ11Σ12Σ21Σ22] \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} Тогда, (y1|y2=a)(y1|y2=a)({\boldsymbol y}_1|{\boldsymbol …

10
В чем разница между нейронной сетью и глубокой нейронной сетью, и почему глубокие работают лучше?
Я не видел вопроса, сформулированного именно в этих терминах, и поэтому я задаю новый вопрос. Что мне интересно знать, так это не определение нейронной сети, а понимание реальной разницы с глубокой нейронной сетью. Для большего контекста: я знаю, что такое нейронная сеть и как работает обратное распространение. Я знаю, что …

4
Корреляция Пирсона или Спирмена с ненормальными данными
Я получаю этот вопрос достаточно часто в своей статистической консультационной работе, поэтому я решил опубликовать его здесь. У меня есть ответ, который размещен ниже, но мне было интересно услышать, что говорят другие. Вопрос: Если у вас есть две переменные, которые обычно не распределены, следует ли использовать rho Спирмена для корреляции?

13
Что не так с комиксом XKCD «Частые против байесов»?
Этот комикс xkcd (Frequentists vs. Bayesians) высмеивает статистика, который часто приводит к ошибочным результатам. Однако мне кажется, что его рассуждения на самом деле верны в том смысле, что они следуют стандартной методике частых исследований. Таким образом, мой вопрос: «Правильно ли он применяет методологию частоты?» Если нет: что будет правильным выводом …

1
Как обратить вспять PCA и восстановить исходные переменные из нескольких основных компонентов?
Анализ основных компонентов (PCA) может использоваться для уменьшения размерности. После такого уменьшения размерности, как можно приблизительно восстановить исходные переменные / характеристики из небольшого числа главных компонентов? В качестве альтернативы, как можно удалить или удалить несколько основных компонентов из данных? Другими словами, как обратить вспять PCA? Учитывая, что PCA тесно связан …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.