Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Когда (и почему) вы должны взять журнал распределения (чисел)?
Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ... Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ? Вопросов: ПОЧЕМУ в первую очередь стоит взять журнал …

4
Как интерпретировать сюжет QQ
Я работаю с небольшим набором данных (21 наблюдение) и имею следующий нормальный график QQ в R: Видя, что сюжет не поддерживает нормальность, что я могу сделать вывод о базовом распределении? Мне кажется, что распределение, более искаженное вправо, было бы лучше, верно? Кроме того, какие еще выводы мы можем сделать из …

9
Почему внезапное увлечение тензорами?
Недавно я заметил, что многие люди разрабатывают тензорные эквиваленты многих методов (тензорная факторизация, тензорные ядра, тензоры для тематического моделирования и т. Д.). Мне интересно, почему мир внезапно очарован тензорами? Существуют ли недавние документы / стандартные результаты, которые особенно удивляют, которые привели к этому? Это в вычислительном отношении намного дешевле, чем …

3
Когда я должен использовать лассо против риджа?
Скажем, я хочу оценить большое количество параметров, и я хочу наказать некоторые из них, потому что я считаю, что они должны иметь небольшой эффект по сравнению с другими. Как мне решить, какую схему наказания использовать? Когда регрессия гребня более уместна? Когда я должен использовать лассо?


8
В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?
Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?

8
Как бороться с идеальным разделением в логистической регрессии?
Если у вас есть переменная, которая отлично разделяет нули и единицы в целевой переменной, R выдаст следующее предупреждающее сообщение «идеальное или квази идеальное разделение»: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Мы все еще получаем модель, но оценки коэффициента завышены. Как вы справляетесь с этим на практике?

21
Есть ли у Юлии надежда остаться в статистическом сообществе?
Я недавно прочитал сообщение от R-Bloggers, которое связывалось с этим сообщением в блоге от Джона Майлса Уайта о новом языке под названием Джулия . Джулия пользуется преимуществом компилятора, работающего точно в срок, который дает ему быстрое время выполнения и ставит его на тот же порядок скорости, что и C / …

3
Шпаргалка R's lmer
На этом форуме много обсуждается вопрос о том, как правильно указать различные иерархические модели lmer. Я думал, что было бы здорово иметь всю информацию в одном месте. Пара вопросов для начала: Как указать несколько уровней, где одна группа вложена в другую: это (1|group1:group2)или нет (1+group1|group2)? В чем разница между (~1 …

3
ROC против кривых точности и отзыва
Я понимаю формальные различия между ними, и я хочу знать, когда более уместно использовать одно против другого. Всегда ли они дают дополнительное представление о производительности данной системы классификации / обнаружения? Когда разумно представить их обоих, скажем, в газете? вместо одного? Существуют ли альтернативные (возможно, более современные) дескрипторы, которые отражают соответствующие …

2
Как я могу получить количество строк data.frame в R? [закрыто]
После прочтения набора данных: dataset <- read.csv("forR.csv") Как я могу получить R, чтобы дать мне количество дел, которые он содержит? Кроме того, будет ли возвращаемое значение включать исключающие случаи, пропущенные с помощью na.omit(dataset)?
158 r 

2
Генеративный или дискриминационный
Я знаю, что порождающие средства «основаны на » и дискриминационные средства «основаны на », но я запутался в нескольких моментах:P ( y | x )P(x,y)P(x,y)P(x,y)P(y|x)P(y|x)P(y|x) Википедия (+ много других хитов в сети) классифицирует такие вещи, как SVM и деревья решений, как дискриминационные. Но они даже не имеют вероятностных интерпретаций. Что …


6
Может ли значение распределения вероятности, превышающее 1, быть в порядке?
На странице Википедии о наивных байесовских классификаторах есть такая строка: p ( h e i g h t | m a l e ) = 1,5579p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (Распределение вероятностей по 1 в порядке. Это площадь под кривой колокола, равная 1.) Как значение может быть в порядке? Я думал, что …

6
Как выбрать прогностическую модель после k-кратной перекрестной проверки?
Мне интересно, как выбрать прогностическую модель после выполнения перекрестной проверки по K-кратному критерию. Это может быть неловко сформулировано, поэтому позвольте мне объяснить более подробно: всякий раз, когда я запускаю кросс-проверку K-кратных данных, я использую K подмножеств данных обучения и в конечном итоге получаю K различных моделей. Я хотел бы знать, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.