Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Статистическая классификация текста
Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно …

5
Моделирование продольных данных, где влияние времени варьируется в функциональной форме между людьми
Контекст : Представьте, что у вас было продольное исследование, в котором измеряли зависимую переменную (DV) один раз в неделю в течение 20 недель на 200 участниках. Хотя в целом я интересуюсь, типичные DV, о которых я думаю, включают в себя выполнение работы после найма или различные меры по улучшению благосостояния …

8
Какова вероятность того, что этот человек является женщиной?
За занавеской стоит человек - я не знаю, женщина это или мужчина. Я знаю, что у человека длинные волосы, и что 90% всех людей с длинными волосами - женщины Я знаю, что у человека редкая группа крови AX3, и что 80% всех людей с этой группой крови - женщины. Какова …

2
Почему нет механизмов глубокого обучения шахматам, похожих на AlphaGo?
Компьютеры в течение долгого времени могли играть в шахматы, используя метод "грубой силы", исследуя определенную глубину и затем оценивая позицию. Компьютер AlphaGo, однако, использует только ANN для оценки позиций (насколько я знаю, он не выполняет поиск по глубине). Можно ли создать шахматный движок, который будет играть в шахматы так же, …

1
Как PCA поможет с анализом кластеризации k-средних?
Справочная информация . Я хочу классифицировать жилые районы города по группам на основе их социально-экономических характеристик, включая плотность жилищных единиц, плотность населения, площадь зеленых насаждений, стоимость жилья, количество школ / медицинских центров / детских садов и т. Д. Я хочу понять, на сколько разных групп можно разделить жилые районы и …

2
Функция стоимости в линейной регрессии МНК
Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Я понимаю, откуда берется . Я думаю, что он сделал это так, чтобы, когда он выполнил производную на квадратном члене, 2 в квадратном …

2
Какой диапазон поиска для определения оптимальных параметров С и гамма SVM?
Я использую SVM для классификации и пытаюсь определить оптимальные параметры для линейных и RBF-ядер. Для линейного ядра я использую перекрестный проверенный выбор параметров, чтобы определить C, а для ядра RBF я использую поиск по сетке, чтобы определить C и гамму. У меня есть 20 (числовых) функций и 70 учебных примеров, …

4
Как рассчитать относительную ошибку, когда истинное значение равно нулю?
Как рассчитать относительную ошибку, когда истинное значение равно нулю? Скажем, у меня есть и . Если я определю относительную ошибку как:х Руководство T E сек тИкст т у й= 0ИксTрUезнак равно0x_{true} = 0ИксТ Е сек тИксTеsTx_{test} относительная ошибка = хт т у й- хТ Е сек тИкст т у йотносительная …

1
Целевая функция PCA: какова связь между максимизацией дисперсии и минимизацией ошибки?
Алгоритм PCA может быть сформулирован в терминах корреляционной матрицы (предположим, что данные уже нормализованы, и мы рассматриваем только проекцию на первый ПК). Целевая функция может быть записана как:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Это хорошо, и мы используем множители Лагранжа, чтобы решить это, то есть переписать …
32 pca  optimization 

3
PCA по корреляции или ковариации: имеет ли смысл PCA по корреляции когда-либо? [закрыто]
В анализе главных компонентов (PCA) можно выбрать либо ковариационную матрицу, либо матрицу корреляции, чтобы найти компоненты (из их соответствующих собственных векторов). Они дают разные результаты (загрузки ПК и оценки), потому что собственные векторы между обеими матрицами не равны. Насколько я понимаю, это связано с тем, что вектор необработанных данных и …


3
Как R обрабатывает пропущенные значения в lm?
Я хотел бы регрессировать вектор B против каждого из столбцов в матрице A. Это тривиально, если нет пропущенных данных, но если матрица A содержит пропущенные значения, тогда моя регрессия против A ограничена включением только тех строк, где все значения присутствуют ( поведение na.omit по умолчанию ). Это приводит к неправильным …

2
Дисперсия произведения зависимых переменных
Какова формула для дисперсии произведения зависимых переменных? В случае независимых переменных формула проста: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 Но какова формула для коррелированных переменных? Кстати, как я могу найти корреляцию на основе статистических данных?

3
Какие стоп-критерии для агломерационной иерархической кластеризации используются на практике?
Я нашел обширную литературу, предлагающую всевозможные критерии (например, Glenn et al. 1985 (pdf) и Jung et al. 2002 (pdf)). Однако большинство из них не так легко реализовать (по крайней мере, с моей точки зрения). Я использую scipy.cluster.hierarchy для получения кластерной иерархии, и сейчас я пытаюсь решить, как формировать плоские кластеры …
32 clustering 

4
Как мне соответствовать многоуровневой модели для перераспределенных результатов по пуассону?
Я хочу установить многоуровневый GLMM с распределением Пуассона (с избыточной дисперсией), используя R. В настоящее время я использую lme4, но я заметил, что недавно quasipoissonсемейство было удалено. В другом месте я видел, что вы можете моделировать аддитивную избыточную дисперсию для биномиальных распределений, добавляя случайный перехват с одним уровнем на наблюдение. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.