Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Случайный лес - Как справиться с перегрузкой
У меня есть опыт работы в области компьютерных наук, но я пытаюсь научить себя науке данных, решая проблемы в Интернете. Я работал над этой проблемой последние пару недель (около 900 строк и 10 функций). Сначала я использовал логистическую регрессию, но теперь я переключился на случайные леса. Когда я запускаю свою …

4
Логистическая регрессия в R (отношение шансов)
Я пытаюсь провести анализ логистической регрессии в R. Я посещал курсы по этому материалу с использованием STATA. Мне очень трудно копировать функциональность в R. Это зрелый в этой области? Там, кажется, мало документации или руководства доступны. Кажется, что для получения отношения шансов требуется установка epicalcи / или epitoolsи / или …
41 r  logistic  odds-ratio 

1
Как центрирование данных избавляет от перехвата в регрессии и PCA?
Я продолжаю читать о случаях, когда мы центрируем данные (например, с помощью регуляризации или PCA), чтобы удалить перехват (как упомянуто в этом вопросе ). Я знаю, что это просто, но мне трудно понять это интуитивно. Может ли кто-нибудь предоставить интуицию или ссылку, которую я могу прочитать?

3
Означает ли статистическая независимость отсутствие причинно-следственной связи?
Две случайные величины A и B статистически независимы. Это означает, что в DAG процесса: и, конечно, . Но значит ли это, что от B до A нет входной двери?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) Потому что тогда мы должны получить . Так что, если это так, означает ли статистическая независимость автоматически отсутствие причинно-следственной …

4
Почему сигмовидная функция вместо всего остального?
Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?11 + е- х11+e−x\frac{1}{1+e^{-x}} Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях …

6
Когда использовать симуляции?
Так что это очень простой и глупый вопрос. Однако, когда я учился в школе, я очень мало внимания уделял всей концепции симуляции в классе, и это меня немного пугало. Можете ли вы объяснить процесс моделирования в терминах мирян? (может быть для генерации данных, коэффициентов регрессии и т. д.) Каковы некоторые …
40 simulation 

5
Предупреждение в R - приближение хи-квадрат может быть неправильным
У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал предупреждение, что " In chisq.test(a) : Chi-squared approximation …

4
Напомним и точность в классификации
Я прочитал некоторые определения отзыва и точности, хотя это каждый раз в контексте поиска информации. Мне было интересно, может ли кто-нибудь объяснить это немного подробнее в контексте классификации и, возможно, проиллюстрировать некоторые примеры. Скажем, например, у меня есть двоичный классификатор, который дает мне точность 60% и отзыв 95%, это хороший …


3
Как представить результаты Лассо, используя glmnet?
Я хотел бы найти предикторы для непрерывной зависимой переменной из набора из 30 независимых переменных. Я использую регрессию Лассо, как это реализовано в пакете glmnet в R. Вот некоторый фиктивный код: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use …

3
Чем отличаются скрытые марковские модели от нейронных сетей?
Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые состояния, которые мы пытались выяснить, используя наблюдения. Насколько …

1
Как определить важные основные компоненты, используя метод начальной загрузки или метод Монте-Карло?
Я заинтересован в определении количества значимых паттернов, вытекающих из анализа основных компонентов (PCA) или анализа эмпирических ортогональных функций (EOF). Я особенно заинтересован в применении этого метода к климатическим данным. Поле данных представляет собой матрицу MxN, где М - это измерение времени (например, дни), а N - пространственное измерение (например, положения …
40 r  pca  bootstrap  monte-carlo 

3
Рассмотрим сумму
Я размышлял об этом некоторое время; Я нахожу это немного странным, как внезапно это происходит. По сути, зачем нам нужно только три формы для сглаживания ZnZnZ_n , как это происходит? И почему сглаживание происходит так быстро? Z2Z2Z_2 : Z3Z3Z_3 : (изображения, бесстыдно похищенные из блога Джона Д. Кука: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) …

15
Каким лучшим методам следует руководствоваться при подготовке участков?
Я обычно делаю свой собственный особенный выбор при подготовке участков. Тем не менее, мне интересно, есть ли лучшие практики для создания участков. Примечание: комментарий Роба к ответу на этот вопрос очень актуален здесь.

13
Проблема Монти Холла - где наша интуиция подводит нас?
Из Википедии: Предположим, вы участвуете в игровом шоу, и у вас есть выбор из трех дверей: за одной дверью находится машина; позади остальных коз. Вы выбираете дверь, скажем, № 1, и хозяин, который знает, что за дверями, открывает другую дверь, скажем, № 3, у которой есть коза. Затем он говорит …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.