Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

11
Есть ли хорошая научно-популярная книга о статистике или машинном обучении?
Вокруг куча действительно хороших научно-популярных книг, посвященных реальной науке, а также истории и причинам нынешних теорий, оставаясь при этом чрезвычайно приятными для чтения. Например, «Хаос» Джеймса Глейка (хаос, фракталы, нелинейность), «Краткая история времени» Стивена Хокинга (физика, происхождение Вселенной, время, черные дыры) или «Эгоистичный ген» Ричарда Докинза (эволюция и естественный отбор). …

3
Есть ли случаи, когда PCA более подходит, чем t-SNE?
Я хочу увидеть, как 7 показателей поведения по исправлению текста (время, потраченное на исправление текста, количество нажатий клавиш и т. Д.) Связаны друг с другом. Меры взаимосвязаны. Я запустил PCA, чтобы увидеть, как меры проецируются на ПК1 и ПК2, что позволяет избежать частичного выполнения двухсторонних корреляционных тестов между измерениями. Меня …
39 pca  tsne 

7
Каковы наиболее распространенные уклоны, которые люди делают при сборе или интерпретации данных?
Я эконом / стат майор. Мне известно, что экономисты пытались изменить свои предположения о поведении и рациональности человека, выявляя ситуации, в которых люди не ведут себя рационально. Например, предположим, что я предлагаю вам 100% -ную потерю в 1000 долл. Или 50% -ную потерю в размере 2500 долл. , Люди выбирают …
39 bias 



4
Должны ли «сохраняться» ковариаты, которые не являются статистически значимыми при создании модели?
У меня есть несколько ковариат в моем расчете для модели, и не все из них являются статистически значимыми. Должен ли я удалить те, которые не являются? Этот вопрос обсуждает это явление, но не отвечает на мой вопрос: как интерпретировать незначительный эффект ковариаты в ANCOVA? В ответе на этот вопрос нет …

5
Использование LASSO из пакета lars (или glmnet) в R для выбора переменных
Извините, если этот вопрос встречается немного базовым. Я хочу использовать выбор переменных LASSO для модели множественной линейной регрессии в R. У меня есть 15 предикторов, один из которых является категориальным (вызовет ли это проблему?). После установки моих и я использую следующие команды:ИксИксxYYy model = lars(x, y) coef(model) Моя проблема, когда …

1
Как интерпретировать и сообщать, что эта квадрат / частичная эта квадрат в статистически значимых и несущественных анализах?
У меня есть данные, которые имеют значения квадрата eta и значения квадрата eta, рассчитанные как мера величины эффекта для средних групповых различий. В чем разница между Eta-квадратом и частичным Eta-квадратом? Могут ли они оба интерпретироваться с использованием одних и тех же рекомендаций Коэна (1988 год, я думаю: 0,01 = маленький, …

3
Почему закон больших чисел не применяется в случае цены акций Apple?
Вот статья в Нью-Йорк Таймс под названием «Apple противостоит закону больших чисел» . Он пытается объяснить рост цены акций Apple, используя закон больших чисел. Какие статистические (или математические) ошибки делает эта статья?

4
Что означает «.» (Точка) в R?
Я просто читаю книгу "R в двух словах". И кажется, что я пропустил часть, где "." как в "sample.formula" было объяснено. > sample.formula <- as.formula(y~x1+x2) Образец - это объект с формулой поля, как в других языках? И если так, как я могу узнать, какие еще поля / функции у этого …
39 r 

2
Моделирование анализа мощности логистической регрессии - разработанные эксперименты
Этот вопрос является ответом на ответ @Greg Snow на вопрос, который я задал относительно анализа мощности с помощью логистической регрессии и SAS Proc GLMPOWER. Если я планирую эксперимент и проанализирую результаты в факторной логистической регрессии, как я могу использовать симуляцию (и здесь ) для анализа мощности? Вот простой пример, где …

6
Наименьший угол регрессии против лассо
Регрессия под наименьшим углом и лассо имеют тенденцию давать очень похожие пути регуляризации (идентичные, за исключением случаев, когда коэффициент пересекает ноль). Они оба могут эффективно соответствовать практически одинаковым алгоритмам. Есть ли какая-либо практическая причина, чтобы предпочесть один метод другому?
39 regression  lasso 

3
Режим, класс и тип объектов R
Мне было интересно, каковы различия между объектами Mode, Class и Type of R? Тип объекта R может быть получен с помощью функции typeof (), mode by mode () и class by class (). Также какие-нибудь другие подобные функции и понятия, которые я пропустил? Спасибо и всего наилучшего!
39 r 

3
Clojure против R: преимущества и недостатки для анализа данных
У меня был план изучения Р в ближайшее время. Читая другой вопрос, я узнал о Clojure. Теперь я не знаю, что делать. Я думаю, что большим преимуществом R для меня является то, что некоторые люди в экономике используют его, в том числе один из моих руководителей (хотя другой сказал: держись …
39 r 

8
Как проверить гипотезу об отсутствии групповых различий?
Представьте, что у вас есть исследование с двумя группами (например, мужчины и женщины), которое рассматривает числовую зависимую переменную (например, результаты тестов интеллекта), и у вас есть гипотеза, что между группами нет различий. Вопрос: Что такое хороший способ проверить, нет ли групповых различий? Как бы вы определили размер выборки, необходимый для …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.