Статистика и большие данные classification

3

Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных поворотов и введения шума. Увеличение сделано в автономном режиме. Какой правильный …

14 machine-learning classification cross-validation dataset data-augmentation

1

Разница между логистической регрессией и машинами опорных векторов?

Я знаю, что логистическая регрессия находит гиперплоскость, которая разделяет тренировочные образцы. Я также знаю, что опорные векторные машины находят гиперплоскость с максимальным запасом. Мой вопрос: есть ли разница между логистической регрессией (LR) и машинами опорных векторов (SVM) в том, что LR находит любую гиперплоскость, которая разделяет обучающие выборки, в то …

14 machine-learning classification svm data-mining

1

Классификаторы машинного обучения Big-O или сложности

Чтобы оценить производительность нового алгоритма классификатора, я пытаюсь сравнить точность и сложность (большое в обучении и классификации). Из машинного обучения: обзор Я получаю полный список контролируемых классификаторов, а также таблицу точности между алгоритмами и 44 задачи тестирования из репозитория данных UCI . Тем не менее, я не могу найти обзор, …

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

Взвешивание более свежих данных в модели Random Forest

Я обучаю классификационную модель случайному лесу, чтобы различать 6 категорий. Мои транзакционные данные имеют около 60 тыс. Наблюдений и 35 переменных. Вот пример того, как это выглядит примерно. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

14 r machine-learning classification random-forest

1

Использование LASSO в случайном лесу

Я хотел бы создать случайный лес, используя следующий процесс: Построить дерево на случайных выборках данных и объектов, используя прирост информации для определения разбиений Завершить листовой узел, если он превышает предопределенную глубину, ИЛИ любое разделение приведет к тому, что число листьев будет меньше, чем предопределенный минимум Вместо того, чтобы назначать метку …

14 classification random-forest lasso ensemble

1

RandomForest - интерпретация сюжета MDS

Я использовал randomForest для классификации 6 поведений животных (например, стоя, ходьбы, плавания и т. Д.) На основе 8 переменных (различные позы тела и движения). MDSplot в пакете randomForest дает мне этот вывод, и у меня возникают проблемы с интерпретацией результата. Я сделал PCA на тех же данных и уже получил …

14 r classification random-forest multidimensional-scaling

5

Как сделать одноклассную классификацию текста?

Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная веб-страница принадлежит либо к классу " Позитив", либо к …

14 classification text-mining naive-bayes binary-data

3

Выбор нейронной сети скрытой функции активации

В другом месте я читал, что выбор функции активации скрытого слоя в NN должен основываться на потребности , то есть, если вам нужны значения в диапазоне от -1 до 1, используйте tanh и используйте сигмоид для диапазона от 0 до 1. Мой вопрос: как узнать, что нужно ? Основано ли …

14 machine-learning classification neural-networks

1

Когда несбалансированные классы с избыточной / недостаточной выборкой, отличается ли максимальная точность от минимизации затрат на неправильную классификацию?

Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная к затратам классификация и методы выборки. Кажется, что, столкнувшись с проблемой редкого …

14 machine-learning classification unbalanced-classes

3

Можно ли сделать модели CART надежными?

Коллега в моем офисе сказал мне сегодня: «Модели деревьев не хороши, потому что их ловят экстремальные наблюдения». Поиск здесь привел к этой теме, которая в основном поддерживает претензию. Что приводит меня к вопросу - в какой ситуации модель CART может быть надежной и как это показано?

14 regression classification robust cart

2

Почему оценка ошибки случайного леса OOB улучшается при уменьшении количества выбранных объектов?

Я применяю алгоритм случайного леса в качестве классификатора для набора данных микрочипов, который разделен на две известные группы с тысячами объектов. После первого запуска я смотрю на важность функций и снова запускаю алгоритм дерева с 5, 10 и 20 наиболее важными функциями. Я обнаружил, что для всех 10-ти и 20-ти …

14 r machine-learning classification random-forest

1

Зачем использовать нормализованный счет Джини вместо AUC в качестве оценки?

Конкурс Kaggle в прогнозировании безопасного водителя Порто Сегуро использует нормализованную оценку Джини в качестве метрики оценки, и мне стало любопытно узнать причины такого выбора. Каковы преимущества использования нормализованной оценки Джини вместо наиболее обычных показателей, таких как AUC, для оценки?

14 classification auc model-evaluation gini

1

Карет глмнет против cv.glmnet

Кажется, существует большая путаница при сравнении использования glmnetвнутри caretдля поиска оптимальной лямбды и использования cv.glmnetдля выполнения той же задачи. Было задано много вопросов, например: Модель классификации train.glmnet против cv.glmnet? Как правильно использовать glmnet с кареткой? Перекрестная проверка `glmnet` с использованием` caret` но ответа не дано, что может быть связано с …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

ГАМ против проигрыша против сплайнов

Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

8

Обучите нейронную сеть, чтобы различать четные и нечетные числа

Вопрос: можно ли обучить NN различать нечетные и четные числа, используя только в качестве входных данных сами числа? У меня есть следующий набор данных: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 Я тренировал NN с двумя входными …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

Вопросы с тегом «classification»