Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
К-фолд против Монте-Карло перекрестной проверки
Я пытаюсь изучить различные методы перекрестной проверки, прежде всего с намерением применить к методам многомерного анализа под наблюдением. Два, с которыми я столкнулся, являются методами перекрестной проверки K-fold и Monte Carlo. Я читал, что K-fold - это вариант Монте-Карло, но я не уверен, что полностью понимаю, из чего состоит определение …


4
Как вы интерпретируете RMSLE (среднеквадратичная логарифмическая ошибка)?
Я принимал участие в конкурсе по машинному обучению, где они использовали RMSLE (среднеквадратичная логарифмическая ошибка) для оценки производительности, прогнозирующей цену продажи категории оборудования. Проблема в том, что я не уверен, как интерпретировать успех моего конечного результата. Например , если я достиг RMSLE из я мог поднять его экспоненциальную мощность и …

2
Как статистически сравнить производительность классификаторов машинного обучения?
Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую модель. Я делаю это десять раз для каждого классификатора. Поэтому у меня …

2
Выбор пропускной способности для оценки плотности ядра
Для однофакторных оценок плотности ядра (KDE) я использую правило Сильвермана для вычисления :часчасh 0,9 мин ( с д, яQ R / 1,34 ) × n- 0,20.9мин(sd,яQр/1,34)×N-0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Каковы стандартные правила для многомерного KDE (при условии нормального ядра).

3
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная Y является фактором. В моем наборе данных …

4
Почему Эндрю Нг предпочитает использовать SVD, а не EIG ковариационной матрицы для PCA?
Я изучаю PCA из курса Coursera Эндрю Нг и других материалов. В первом задании Stanford NLP cs224n и в видео лекции Эндрю Нг они проводят разложение по сингулярным значениям вместо разложения по ковариационной матрице по собственным векторам, и Нг даже говорит, что SVD численно более устойчив, чем собственное разложение. Насколько …

4
Как получается функция затрат из логистической регрессии
Я прохожу курс машинного обучения в Стэнфорде на Coursera. В главе о логистической регрессии функция затрат выглядит следующим образом: Затем он получен здесь: Я попытался получить производную функции стоимости, но я получил что-то совершенно другое. Как получается производная? Какие промежуточные шаги?

3
Перекрестная проверка, включая обучение, валидацию и тестирование. Зачем нам нужны три подмножества?
У меня есть вопрос, касающийся процесса перекрестной проверки. Я нахожусь в середине курса машинного обучения на Cursera. Одна из тем - о перекрестной проверке. Мне было немного трудно следовать. Я знаю, почему нам нужно CV, потому что мы хотим, чтобы наши модели хорошо работали с будущими (неизвестными) данными, а CV …

2
Ошибка «система вычислительно единственная» при запуске GLM
Я использую пакет robustbase для запуска оценки glm. Однако, когда я делаю это, я получаю следующую ошибку: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Что это значит / указывает? И как я могу это отладить? PS. Если вам понадобится что-нибудь …

3
Почему AUC выше для классификатора, который менее точен, чем для более точного классификатора?
У меня есть два классификатора A: наивная байесовская сеть B: древовидная (односвязная) байесовская сеть С точки зрения точности и других показателей, A работает сравнительно хуже, чем B. Однако, когда я использую пакеты R ROCR и AUC для выполнения анализа ROC, оказывается, что AUC для A выше, чем AUC для B. …

4
Как измерить неравномерность распределения?
Я пытаюсь найти метрику для измерения неравномерности распределения для эксперимента, который я провожу. У меня есть случайная переменная, которая должна быть равномерно распределена в большинстве случаев, и я хотел бы иметь возможность идентифицировать (и, возможно, измерить степень) примеры наборов данных, где переменная не распределена равномерно в некотором поле. Пример трех …

2
Статистика.com опубликовала неправильный ответ?
Статистика.com опубликовала проблему недели: уровень мошенничества со страхованием жилья составляет 10% (одна из десяти претензий является мошеннической). Консультант предложил систему машинного обучения, чтобы рассмотреть претензии и классифицировать их как мошенничество или отсутствие мошенничества. Система на 90% эффективна в обнаружении мошеннических претензий, но только на 80% эффективна для правильной классификации претензий, …

2
Какая статистическая модель стоит за алгоритмом SVM?
Я узнал, что при работе с данными на основе модельного подхода первым шагом является моделирование процедуры обработки данных в качестве статистической модели. Затем следующим шагом является разработка эффективного / быстрого алгоритма вывода / обучения на основе этой статистической модели. Итак, я хочу спросить, какая статистическая модель стоит за алгоритмом машины …

1
Есть ли Факторный анализ или PCA для порядковых или двоичных данных?
Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные. Я хотел бы знать, какие виды анализа будут подходящими и …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.