Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Почему внизу?
Предположим, я хочу узнать классификатор, который предсказывает, является ли электронная почта спамом. И предположим, что только 1% писем являются спамом. Проще всего было бы изучить тривиальный классификатор, который говорит, что ни одно из писем не является спамом. Этот классификатор дал бы нам точность 99%, но он не выучил бы ничего …

2
Разные способы написания терминов взаимодействия в лм?
У меня есть вопрос о том, какой способ лучше определить взаимодействие в регрессионной модели. Рассмотрим следующие данные: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, …

3
Каково распределение евклидова расстояния между двумя нормально распределенными случайными величинами?
Предположим, вам даны два объекта, точное местоположение которых неизвестно, но они распределены в соответствии с обычным распределением с известными параметрами (например, и . Мы можем предположить, что это обе двумерные нормали, так что позиции описываются распределением по координатам (т. Е. и - векторы, содержащие ожидаемые координаты для и соответственно). Мы …

5
Корреляции между непрерывными и категориальными (номинальными) переменными
Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.ρρ\rho При поиске в интернете я обнаружил, что коробочный график может дать представление о том, …

5
Как интерпретировать весовые характеристики SVM?
Я пытаюсь интерпретировать переменные веса, заданные путем подбора линейного SVM. (Я использую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не могу найти ничего в документации, в которой конкретно указано, как эти веса рассчитываются или интерпретируются. Знак веса имеет какое-либо отношение к классу?

4
Что такое недоумение?
Я столкнулся с недоумением термина, который относится к усредненной по логарифму обратной вероятности на невидимых данных. Статья Википедии о недоумении не дает интуитивное значение для того же. Эта мера недоумения использовалась в статье pLSA . Кто-нибудь может объяснить необходимость и интуитивное значение меры недоумения ?

6
Важность нормализации местного ответа в CNN
Я обнаружил, что Imagenet и другие крупные CNN используют слои нормализации локального отклика. Однако я не могу найти столько информации о них. Насколько они важны и когда их следует использовать? С http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : «Уровень нормализации локального отклика выполняет своего рода« боковое торможение »путем нормализации по локальным входным областям. В режиме …

2
Использование lmer для линейной модели смешанного эффекта с повторными измерениями
РЕДАКТИРОВАТЬ 2: Первоначально я думал, что мне нужно запустить двухфакторный ANOVA с повторными измерениями на один фактор, но теперь я думаю, что линейная модель смешанного эффекта будет работать лучше для моих данных. Я думаю, что почти знаю, что должно произойти, но все еще смущен несколькими моментами. Эксперименты, которые мне нужно …

9
Корреляция не подразумевает причинно-следственную связь; но как насчет того, когда одной из переменных является время?
Я знаю, что этот вопрос задавался миллиард раз, поэтому, посмотрев онлайн, я полностью убежден, что корреляция между двумя переменными не подразумевает причинно-следственную связь. На одной из моих сегодняшних лекций по статистике у нас была гостевая лекция физика о важности статистических методов в физике. Он сказал поразительное утверждение: корреляция не подразумевает …

10
Почему 600 из 1000 убедительнее, чем 6 из 10?
Взгляните на этот отрывок из «Руководства по обучению», Palgrave, 2012, Стеллы Коттрелл, стр. 155: Процентное внимание Обратите внимание, когда проценты даны. Предположим, вместо этого приведенное выше утверждение гласит: 60% людей предпочитали апельсины; 40% сказали, что предпочитают яблоки. Это выглядит убедительно: числовые величины даны. Но есть разница между 60% и 40% …

10
Ваши шансы умереть в авиакатастрофе уменьшаются, если вы летите прямо?
Недавно у меня возникли разногласия с другом по поводу минимизации шансов умереть в самолете из-за крушения. Это элементарный статистический вопрос. Он заявил, что предпочитает лететь прямо к месту назначения, так как это снижает вероятность того, что он погибнет в авиакатастрофе. Его логика заключалась в том, что если вероятность крушения коммерческой …

2
Панды / Statsmodel / Scikit-Learn
Являются ли Pandas, Statsmodels и Scikit-learn разными реализациями машинного обучения / статистических операций, или они дополняют друг друга? Какой из них обладает наиболее полной функциональностью? Какой из них активно разрабатывается и / или поддерживается? Я должен осуществить логистическую регрессию. Любые предложения относительно того, что из этого я должен использовать?

5
Хорошие игры для изучения статистического мышления?
Существуют ли игры, в которых игрок "думает как статистик"? Например, lightbot заставляет вас «думать как программист» (в очень простой форме). Существуют ли какие-либо игры, предназначенные для развлечения или обучения, которые могут помочь освоить основные понятия, такие как корреляция, p-значения, наименьшие квадраты, дисперсия, различные виды распределения вероятностей, регрессия к среднему ... …

1
Может кто-нибудь объяснить понятие «взаимозаменяемость»?
Я вижу, что понятие «взаимозаменяемости» используется в разных контекстах (например, в байесовских моделях), но я никогда не понимал этот термин очень хорошо. Что означает эта концепция? При каких обстоятельствах применяется эта концепция и почему?

4
OpenBugs против JAGS
Я собираюсь опробовать среду стиля BUGS для оценки байесовских моделей. Есть ли какие-то важные преимущества при выборе между OpenBugs или JAGS? Может ли один заменить другой в обозримом будущем? Я буду использовать выбранный Gibbs Sampler с R. У меня пока нет конкретного приложения, но я решаю, что ему ввести и …
41 r  software  bugs  jags  gibbs 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.