Статистика и большие данные

6

Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно …

32 classification information-retrieval text-mining

5

Моделирование продольных данных, где влияние времени варьируется в функциональной форме между людьми

Контекст : Представьте, что у вас было продольное исследование, в котором измеряли зависимую переменную (DV) один раз в неделю в течение 20 недель на 200 участниках. Хотя в целом я интересуюсь, типичные DV, о которых я думаю, включают в себя выполнение работы после найма или различные меры по улучшению благосостояния …

32 repeated-measures random-effects-model latent-class

8

Какова вероятность того, что этот человек является женщиной?

За занавеской стоит человек - я не знаю, женщина это или мужчина. Я знаю, что у человека длинные волосы, и что 90% всех людей с длинными волосами - женщины Я знаю, что у человека редкая группа крови AX3, и что 80% всех людей с этой группой крови - женщины. Какова …

32 conditional-probability probability

2

Почему нет механизмов глубокого обучения шахматам, похожих на AlphaGo?

Компьютеры в течение долгого времени могли играть в шахматы, используя метод "грубой силы", исследуя определенную глубину и затем оценивая позицию. Компьютер AlphaGo, однако, использует только ANN для оценки позиций (насколько я знаю, он не выполняет поиск по глубине). Можно ли создать шахматный движок, который будет играть в шахматы так же, …

32 neural-networks deep-learning reinforcement-learning games

1

Как PCA поможет с анализом кластеризации k-средних?

Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я хочу понять, на сколько разных групп можно разделить жилые районы и …

32 clustering pca k-means dimensionality-reduction

2

Функция стоимости в линейной регрессии МНК

Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Я понимаю, откуда берется . Я думаю, что он сделал это так, чтобы, когда он выполнил производную на квадратном члене, 2 в квадратном …

32 regression machine-learning loss-functions

2

Какой диапазон поиска для определения оптимальных параметров С и гамма SVM?

Я использую SVM для классификации и пытаюсь определить оптимальные параметры для линейных и RBF-ядер. Для линейного ядра я использую перекрестный проверенный выбор параметров, чтобы определить C, а для ядра RBF я использую поиск по сетке, чтобы определить C и гамму. У меня есть 20 (числовых) функций и 70 учебных примеров, …

32 classification svm kernel-trick

4

Как рассчитать относительную ошибку, когда истинное значение равно нулю?

Как рассчитать относительную ошибку, когда истинное значение равно нулю? Скажем, у меня есть и . Если я определю относительную ошибку как:х Руководство T E сек тИкст т у й= 0ИксTрUезнак равно0x_{true} = 0ИксТ Е сек тИксTеsTx_{test} относительная ошибка = хт т у й- хТ Е сек тИкст т у йотносительная …

32 error measurement-error

1

Целевая функция PCA: какова связь между максимизацией дисперсии и минимизацией ошибки?

Алгоритм PCA может быть сформулирован в терминах корреляционной матрицы (предположим, что данные уже нормализованы, и мы рассматриваем только проекцию на первый ПК). Целевая функция может быть записана как:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Это хорошо, и мы используем множители Лагранжа, чтобы решить это, то есть переписать …

32 pca optimization

3

PCA по корреляции или ковариации: имеет ли смысл PCA по корреляции когда-либо? [закрыто]

В анализе главных компонентов (PCA) можно выбрать либо ковариационную матрицу, либо матрицу корреляции, чтобы найти компоненты (из их соответствующих собственных векторов). Они дают разные результаты (загрузки ПК и оценки), потому что собственные векторы между обеими матрицами не равны. Насколько я понимаю, это связано с тем, что вектор необработанных данных и …

32 pca factor-analysis

3

Есть ли проект Euler-подобный для машинного обучения?

Я обнаружил, что Project Euler http://projecteuler.net/ невероятно полезен при изучении языков программирования. Есть ли подобный сайт для машинного обучения? Я видел http://www.kaggle.com/ , но он не так доступен для начинающих, как Project Euler.

32 teaching

3

Как R обрабатывает пропущенные значения в lm?

Я хотел бы регрессировать вектор B против каждого из столбцов в матрице A. Это тривиально, если нет пропущенных данных, но если матрица A содержит пропущенные значения, тогда моя регрессия против A ограничена включением только тех строк, где все значения присутствуют ( поведение na.omit по умолчанию ). Это приводит к неправильным …

32 r missing-data linear-model

2

Дисперсия произведения зависимых переменных

Какова формула для дисперсии произведения зависимых переменных? В случае независимых переменных формула проста: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Но какова формула для коррелированных переменных? Кстати, как я могу найти корреляцию на основе статистических данных?

32 correlation variance

3

Какие стоп-критерии для агломерационной иерархической кластеризации используются на практике?

Я нашел обширную литературу, предлагающую всевозможные критерии (например, Glenn et al. 1985 (pdf) и Jung et al. 2002 (pdf)). Однако большинство из них не так легко реализовать (по крайней мере, с моей точки зрения). Я использую scipy.cluster.hierarchy для получения кластерной иерархии, и сейчас я пытаюсь решить, как формировать плоские кластеры …

32 clustering

4

Как мне соответствовать многоуровневой модели для перераспределенных результатов по пуассону?

Я хочу установить многоуровневый GLMM с распределением Пуассона (с избыточной дисперсией), используя R. В настоящее время я использую lme4, но я заметил, что недавно quasipoissonсемейство было удалено. В другом месте я видел, что вы можете моделировать аддитивную избыточную дисперсию для биномиальных распределений, добавляя случайный перехват с одним уровнем на наблюдение. …

32 r mixed-model poisson-distribution lme4-nlme overdispersion