Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

5
Как решить парадокс Симпсона?
Парадокс Симпсона - это классическая головоломка, обсуждаемая на вводных курсах статистики по всему миру. Тем не менее, мой курс позволил мне просто отметить, что проблема существует и не дает решения. Я хотел бы знать, как решить парадокс. То есть, когда сталкиваешься с парадоксом Симпсона, когда два разных варианта, кажется, конкурируют …

6
Примерное
Недавно я смотрел на симуляцию Монте-Карло и использовал ее для аппроксимации констант, таких как ππ\pi (окружность внутри прямоугольника, пропорциональная область). Однако я не могу придумать соответствующий метод аппроксимации значения eee [число Эйлера] с использованием интеграции Монте-Карло. Есть ли у вас какие-либо указания о том, как это можно сделать?

2
Что такое скорректированная формула R-квадрата в lm в R и как ее следует интерпретировать?
Какая точная формула используется в R lm() для Скорректированного R-квадрата? Как я могу интерпретировать это? Скорректированные R-квадрат формулы Кажется, существует несколько формул для расчета скорректированного R-квадрата. Формула Вери:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Формула Макнемара:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Формула Господа:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Формула Штейна:1 - [(n−1)( н−k−1)(n−2)( n -k−2)(n+1)n](1−R2)1−[(n−1)(N-К-1)(N-2)(N-К-2)(N+1)N](1-р2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Описание учебников Согласно учебнику Филда « Обнаружение статистики с использованием R» …

2
Назначение функции связи в обобщенной линейной модели
Какова цель функции связи как компонента обобщенной линейной модели? Зачем нам это нужно? Википедия утверждает: Может быть удобно сопоставить область функции связи с диапазоном среднего значения функции распределения В чем преимущество этого?

3
Как интерпретировать OOB и путаницу для случайного леса?
Я получил R-скрипт от кого-то для запуска модели случайного леса. Я изменил и запустил его с некоторыми данными о сотрудниках. Мы пытаемся предсказать добровольное увольнение. Вот некоторая дополнительная информация: это модель классификации, в которой 0 = сотрудник остался, 1 = сотрудник уволен, в настоящее время мы рассматриваем только дюжину переменных …

2
Что такое составная симметрия в простом английском?
Недавно я понял, что смешанная модель с единственным субъектом в качестве случайного фактора и другими факторами в качестве фиксированных факторов эквивалентна ANOVA при настройке корреляционной структуры смешанной модели на составную симметрию. Поэтому я хотел бы знать, что означает составная симметрия в контексте смешанного (т. Е. Расщепленного) ANOVA, в лучшем случае …

3
Как взять производную многомерной нормальной плотности?
Скажем, у меня есть многомерная нормальная плотность . Я хочу получить вторую (частичную) производную по . Не уверен, как взять производную от матрицы.N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)μμ\mu Вики говорит, что нужно брать производный элемент за элементом внутри матрицы. Я работаю с приближением Лапласа Режим .logPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>.θ^=μθ^=μ\hat\theta=\mu Мне дали как это случилось?Σ−1=−∂2∂θ2logp(θ^|y),Σ−1=−∂2∂θ2log⁡p(θ^|y),{\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial …

5
Что хорошего в использовании функции 'comment' в R?
Я только что обнаружил commentфункцию в R. Пример: x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) Это первый раз, когда я пришел с этой функцией, и мне было интересно, как часто / полезно ее использовать. Так как в …
35 r 

5
Каковы лучшие практики в определении эффектов взаимодействия?
Кроме буквального тестирования каждой возможной комбинации переменной (ей) в модели ( x1:x2или x1*x2 ... xn-1 * xn). Как вы определяете, если СЛЕДУЕТ или МОЖЕТ существовать взаимодействие между вашими независимыми (мы надеемся) переменными? Каковы лучшие практики в попытке определить взаимодействие? Есть ли графическая техника, которую вы могли бы использовать?

4
Обоснование проверки односторонней гипотезы
Я понимаю проверку двусторонних гипотез. У вас есть (против H 1 = ¬ H 0 : θ ≠ θ 0 ). Значение p - это вероятность того, что θ сгенерирует данные, по крайней мере, такие же экстремальные, как наблюдалось.H0:θ=θ0H0:θ=θ0H_0 : \theta = \theta_0H1=¬H0:θ≠θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta …

7
Выбор переменных для включения в модель множественной линейной регрессии
В настоящее время я работаю над созданием модели с использованием множественной линейной регрессии. После того, как я возился с моей моделью, я не уверен, как лучше определить, какие переменные оставить, а какие удалить. Моя модель началась с 10 предикторов для DV. При использовании всех 10 предикторов четыре считались значимыми. Если …


3
Добавлены ли пулы слоев до или после выпадающих слоев?
Я создаю сверточную нейронную сеть (CNN), где у меня есть сверточный слой, за которым следует слой пула, и я хочу применить выпадение для уменьшения переобучения. У меня такое чувство, что слой удаления должен быть применен после слоя объединения, но у меня нет ничего, чтобы поддержать это. Где правильное место для …

2
Свидетельство того, что искусственное глобальное потепление поражает «золотой стандарт»: как они это сделали?
Это сообщение в статье Reuter от 25.02.2019 в настоящее время во всех новостях: Свидетельство того, что искусственное глобальное потепление поражает «золотой стандарт» [Ученые] сказали, что уверенность в том, что человеческая деятельность поднимает тепло на поверхности Земли, достигла уровня «пять сигм», статистический показатель означает, что существует только один шанс на миллион, …

5
Почему увеличение размера выборки уменьшает дисперсию (выборку)?
Большая фотография: Я пытаюсь понять, как увеличение размера выборки увеличивает мощность эксперимента. Слайды моего лектора объясняют это картиной из 2 нормальных распределений, одно для нулевой гипотезы и одно для альтернативной гипотезы и порога принятия решения c между ними. Они утверждают, что увеличение размера выборки приведет к снижению дисперсии и, следовательно, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.