Статистика и большие данные

6

Случайный лес - Как справиться с перегрузкой

У меня есть опыт работы в области компьютерных наук, но я пытаюсь научить себя науке данных, решая проблемы в Интернете. Я работал над этой проблемой последние пару недель (около 900 строк и 10 функций). Сначала я использовал логистическую регрессию, но теперь я переключился на случайные леса. Когда я запускаю свою …

41 random-forest overfitting

4

Логистическая регрессия в R (отношение шансов)

Я пытаюсь провести анализ логистической регрессии в R. Я посещал курсы по этому материалу с использованием STATA. Мне очень трудно копировать функциональность в R. Это зрелый в этой области? Там, кажется, мало документации или руководства доступны. Кажется, что для получения отношения шансов требуется установка epicalcи / или epitoolsи / или …

41 r logistic odds-ratio

1

Как центрирование данных избавляет от перехвата в регрессии и PCA?

Я продолжаю читать о случаях, когда мы центрируем данные (например, с помощью регуляризации или PCA), чтобы удалить перехват (как упомянуто в этом вопросе ). Я знаю, что это просто, но мне трудно понять это интуитивно. Может ли кто-нибудь предоставить интуицию или ссылку, которую я могу прочитать?

41 regression pca centering

3

Означает ли статистическая независимость отсутствие причинно-следственной связи?

Две случайные величины A и B статистически независимы. Это означает, что в DAG процесса: и, конечно, . Но значит ли это, что от B до A нет входной двери?(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) Потому что тогда мы должны получить . Так что, если это так, означает ли статистическая независимость автоматически отсутствие причинно-следственной …

40 independence causality bayesian-network dag

4

Почему сигмовидная функция вместо всего остального?

Почему де-факто стандартная сигмоидальная функция так популярна в (не глубоких) нейронных сетях и логистической регрессии?11 + е- х11+e−x\frac{1}{1+e^{-x}} Почему бы нам не использовать многие из других производных функций с более быстрым временем вычисления или более медленным затуханием (так что исчезающий градиент происходит меньше). Немного примеров в Википедии о сигмоидальных функциях …

40 logistic neural-networks least-squares

6

Когда использовать симуляции?

Так что это очень простой и глупый вопрос. Однако, когда я учился в школе, я очень мало внимания уделял всей концепции симуляции в классе, и это меня немного пугало. Можете ли вы объяснить процесс моделирования в терминах мирян? (может быть для генерации данных, коэффициентов регрессии и т. д.) Каковы некоторые …

40 simulation

5

Предупреждение в R - приближение хи-квадрат может быть неправильным

У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал предупреждение, что " In chisq.test(a) : Chi-squared approximation …

40 r categorical-data chi-squared small-sample error-message

4

Напомним и точность в классификации

Я прочитал некоторые определения отзыва и точности, хотя это каждый раз в контексте поиска информации. Мне было интересно, может ли кто-нибудь объяснить это немного подробнее в контексте классификации и, возможно, проиллюстрировать некоторые примеры. Скажем, например, у меня есть двоичный классификатор, который дает мне точность 60% и отзыв 95%, это хороший …

40 machine-learning metric

2

Как читать дистанционные графики Кука?

Кто-нибудь знает, как определить, являются ли пункты 7, 16 и 29 влиятельными или нет? Я где-то читал, что, поскольку расстояние Кука меньше 1, это не так. Я прав?

40 r regression residuals diagnostic cooks-distance

3

Как представить результаты Лассо, используя glmnet?

Я хотел бы найти предикторы для непрерывной зависимой переменной из набора из 30 независимых переменных. Я использую регрессию Лассо, как это реализовано в пакете glmnet в R. Вот некоторый фиктивный код: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use …

40 r multiple-regression lasso glmnet communication

3

Чем отличаются скрытые марковские модели от нейронных сетей?

Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые состояния, которые мы пытались выяснить, используя наблюдения. Насколько …

40 data-mining algorithms neural-networks markov-process

1

Как определить важные основные компоненты, используя метод начальной загрузки или метод Монте-Карло?

Я заинтересован в определении количества значимых паттернов, вытекающих из анализа основных компонентов (PCA) или анализа эмпирических ортогональных функций (EOF). Я особенно заинтересован в применении этого метода к климатическим данным. Поле данных представляет собой матрицу MxN, где М - это измерение времени (например, дни), а N - пространственное измерение (например, положения …

40 r pca bootstrap monte-carlo

3

Рассмотрим сумму

Я размышлял об этом некоторое время; Я нахожу это немного странным, как внезапно это происходит. По сути, зачем нам нужно только три формы для сглаживания ZnZnZ_n , как это происходит? И почему сглаживание происходит так быстро? Z2Z2Z_2 : Z3Z3Z_3 : (изображения, бесстыдно похищенные из блога Джона Д. Кука: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) …

40 normal-distribution mathematical-statistics uniform central-limit-theorem

15

Каким лучшим методам следует руководствоваться при подготовке участков?

Я обычно делаю свой собственный особенный выбор при подготовке участков. Тем не менее, мне интересно, есть ли лучшие практики для создания участков. Примечание: комментарий Роба к ответу на этот вопрос очень актуален здесь.

40 data-visualization references

13

Проблема Монти Холла - где наша интуиция подводит нас?

Из Википедии: Предположим, вы участвуете в игровом шоу, и у вас есть выбор из трех дверей: за одной дверью находится машина; позади остальных коз. Вы выбираете дверь, скажем, № 1, и хозяин, который знает, что за дверями, открывает другую дверь, скажем, № 3, у которой есть коза. Затем он говорит …

40 probability intuition puzzle