Статистика и большие данные

3

К-фолд против Монте-Карло перекрестной проверки

Я пытаюсь изучить различные методы перекрестной проверки, прежде всего с намерением применить к методам многомерного анализа под наблюдением. Два, с которыми я столкнулся, являются методами перекрестной проверки K-fold и Monte Carlo. Я читал, что K-fold - это вариант Монте-Карло, но я не уверен, что полностью понимаю, из чего состоит определение …

29 cross-validation monte-carlo

4

Как перевести результаты из lm () в уравнение?

Мы можем использовать lm()для прогнозирования значения, но нам все еще нужно уравнение формулы результата в некоторых случаях. Например, добавьте уравнение к графикам.

29 r regression lm

4

Как вы интерпретируете RMSLE (среднеквадратичная логарифмическая ошибка)?

Я принимал участие в конкурсе по машинному обучению, где они использовали RMSLE (среднеквадратичная логарифмическая ошибка) для оценки производительности, прогнозирующей цену продажи категории оборудования. Проблема в том, что я не уверен, как интерпретировать успех моего конечного результата. Например , если я достиг RMSLE из я мог поднять его экспоненциальную мощность и …

29 regression machine-learning interpretation measurement-error theory

2

Как статистически сравнить производительность классификаторов машинного обучения?

Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую модель. Я делаю это десять раз для каждого классификатора. Поэтому у меня …

29 machine-learning classification t-test

2

Выбор пропускной способности для оценки плотности ядра

Для однофакторных оценок плотности ядра (KDE) я использую правило Сильвермана для вычисления :часчасh 0,9 мин ( с д, яQ R / 1,34 ) × n- 0,20.9мин(sd,яQр/1,34)×N-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Каковы стандартные правила для многомерного KDE (при условии нормального ядра).

29 smoothing kernel-smoothing

3

R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Почему Эндрю Нг предпочитает использовать SVD, а не EIG ковариационной матрицы для PCA?

Я изучаю PCA из курса Coursera Эндрю Нг и других материалов. В первом задании Stanford NLP cs224n и в видео лекции Эндрю Нг они проводят разложение по сингулярным значениям вместо разложения по ковариационной матрице по собственным векторам, и Нг даже говорит, что SVD численно более устойчив, чем собственное разложение. Насколько …

29 pca linear-algebra svd eigenvalues numerics

4

Как получается функция затрат из логистической регрессии

Я прохожу курс машинного обучения в Стэнфорде на Coursera. В главе о логистической регрессии функция затрат выглядит следующим образом: Затем он получен здесь: Я попытался получить производную функции стоимости, но я получил что-то совершенно другое. Как получается производная? Какие промежуточные шаги?

29 regression logistic gradient-descent derivative

3

Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?

У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими (неизвестными) данными, а CV …

29 machine-learning cross-validation

2

Ошибка «система вычислительно единственная» при запуске GLM

Я использую пакет robustbase для запуска оценки glm. Однако, когда я делаю это, я получаю следующую ошибку: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Что это значит / указывает? И как я могу это отладить? PS. Если вам понадобится что-нибудь …

29 r generalized-linear-model robust

3

Почему AUC выше для классификатора, который менее точен, чем для более точного классификатора?

У меня есть два классификатора A: наивная байесовская сеть B: древовидная (односвязная) байесовская сеть С точки зрения точности и других показателей, A работает сравнительно хуже, чем B. Однако, когда я использую пакеты R ROCR и AUC для выполнения анализа ROC, оказывается, что AUC для A выше, чем AUC для B. …

29 machine-learning classification roc auc bayesian-network

4

Как измерить неравномерность распределения?

Я пытаюсь найти метрику для измерения неравномерности распределения для эксперимента, который я провожу. У меня есть случайная переменная, которая должна быть равномерно распределена в большинстве случаев, и я хотел бы иметь возможность идентифицировать (и, возможно, измерить степень) примеры наборов данных, где переменная не распределена равномерно в некотором поле. Пример трех …

28 distributions variance random-variable uniform

2

Статистика.com опубликовала неправильный ответ?

Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, …

28 probability bayesian puzzle

2

Какая статистическая модель стоит за алгоритмом SVM?

Я узнал, что при работе с данными на основе модельного подхода первым шагом является моделирование процедуры обработки данных в качестве статистической модели. Затем следующим шагом является разработка эффективного / быстрого алгоритма вывода / обучения на основе этой статистической модели. Итак, я хочу спросить, какая статистическая модель стоит за алгоритмом машины …

28 machine-learning svm modeling

1

Есть ли Факторный анализ или PCA для порядковых или двоичных данных?

Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные. Я хотел бы знать, какие виды анализа будут подходящими и …

28 pca factor-analysis ordinal-data binary-data likert