Статистика и большие данные machine-learning

3

Лучшие пять классификаторов, чтобы попробовать сначала

Помимо очевидных характеристик классификатора, таких как вычислительные затраты, ожидаемые типы данных функций / меток и пригодность для определенных размеров и размеров наборов данных, Какие пять (или 10, 20?) классификаторов лучше всего опробовать на новом наборе данных, о котором еще мало что известно (например, семантика и корреляция отдельных функций)? Обычно я …

25 machine-learning classification methodology

3

LASSO с терминами взаимодействия - это нормально, если основные эффекты сведены к нулю?

Регрессия LASSO сокращает коэффициенты до нуля, тем самым обеспечивая эффективный выбор модели. Я считаю, что в моих данных есть значимые взаимодействия между номинальными и непрерывными ковариатами. Однако не обязательно, чтобы «основные эффекты» истинной модели были значимыми (отличными от нуля). Конечно, я не знаю этого, поскольку истинная модель неизвестна. Мои цели …

25 machine-learning lasso glmnet shrinkage penalized

10

Почему бы просто не выбросить нейронные сети и глубокое обучение? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 2 года назад . Фундаментальная проблема с глубоким обучением и нейронными сетями в целом. Решения, которые соответствуют данным …

25 machine-learning neural-networks svm deep-learning

5

Алгоритмы машинного обучения для обработки недостающих данных

Я пытаюсь разработать прогностическую модель, используя многомерные клинические данные, включая лабораторные данные. Пространство данных невелико с 5 тыс. Выборок и 200 переменных. Идея состоит в том, чтобы ранжировать переменные, используя метод выбора признаков (IG, RF и т. Д.), И использовать функции высшего ранга для разработки прогнозной модели. В то время …

25 machine-learning missing-data

2

Интуиция позади логистической регрессии

Недавно я начал изучать машинное обучение, однако мне не удалось понять интуицию, лежащую в основе логистической регрессии . Ниже приведены факты о логистической регрессии, которые я понимаю. В качестве основы для гипотезы мы используем сигмовидную функцию . Я понимаю , почему это правильный выбор, однако , почему это единственный выбор …

25 regression machine-learning logistic

3

Ежедневный анализ временных рядов

Я пытаюсь провести анализ временных рядов, и я новичок в этой области. У меня есть ежедневный подсчет событий с 2006 по 2009 год, и я хочу приспособить модель временного ряда к нему. Вот прогресс, который я сделал: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) В результате получается сюжет: Чтобы проверить, есть ли сезонность …

25 r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

3

Какова мера точности данных с несколькими метками?

Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel. Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких строках есть много 1 (эти экземпляры имеют несколько …

25 machine-learning data-mining multilabel

5

Процедура кластеризации, где каждый кластер имеет равное количество точек?

У меня есть несколько точек в R p , и я хочу сгруппировать точки так, чтобы:Икс= { х1, . , , , хN}Иксзнак равно{Икс1,,,,,ИксN}X=\{x_1,...,x_n\}рпрпR^p Каждый кластер содержит равное количество элементов . (Предположим, что число кластеров делит n .)ИксИксXNNn Каждый кластер в некотором смысле является «пространственно связным», как кластеры из средних.ККk …

25 machine-learning clustering k-means unsupervised-learning

2

10-кратная перекрестная проверка по сравнению с перекрестной проверкой с пропуском одного

Я делаю вложенную перекрестную проверку. Я читал, что перекрестная проверка без участия может быть предвзятой (не помню почему). Лучше ли использовать 10-кратную перекрестную проверку или перекрестную проверку по принципу «один-один-выход», кроме более продолжительного времени выполнения перекрестной проверки «один-один-выход»?

25 machine-learning cross-validation

4

Какую проблему решают передискретизация, недостаточная выборка и SMOTE?

В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема несбалансированных классов . Идея состоит в том, что наборы данных с дисбалансом между положительным …

25 machine-learning classification predictive-models unbalanced-classes

1

Насколько действителен эмпирический байесовский метод?

Поэтому я только что закончил читать замечательную книгу « Введение в эмпирический байесовский анализ» . Я думал, что книга была великолепной, но построение априорных данных на основе данных было неверным. Я был обучен тому, что вы разрабатываете план анализа, затем собираете данные и проверяете гипотезу, ранее определенную в плане анализа. …

24 machine-learning hypothesis-testing bayesian empirical-bayes

1

Что такое вариационные автоэнкодеры и для каких задач обучения они используются?

Согласно этому и этому ответу, автоэнкодеры кажутся техникой, которая использует нейронные сети для уменьшения размеров. Я хотел бы дополнительно знать, что такое вариационный автоэнкодер (его основные отличия / преимущества по сравнению с «традиционными» автоэнкодерами), а также каковы основные задачи обучения, для которых используются эти алгоритмы.

24 machine-learning bayesian deep-learning autoencoders variational-bayes

1

Расчет предельной вероятности по образцам MCMC

Это повторяющийся вопрос (см. Этот пост , этот пост и этот пост ), но у меня другое вращение. Предположим, у меня есть набор сэмплов из стандартного сэмплера MCMC. Для каждого образца я знаю значение вероятности записи в журнал и предшествующего . Если это помогает, я также знаю значение вероятности записи …

24 machine-learning bayesian sampling mcmc likelihood

2

Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?

Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу контролируемого размера. Часто я вижу, как пользователи строят свой вектор признаков, используя TFIDF. Другими словами, частоты …

24 machine-learning classification text-mining

4

Что мы можем узнать о человеческом мозге из искусственных нейронных сетей?

Я знаю, что мой вопрос / название не очень конкретны, поэтому я постараюсь прояснить это: Искусственные нейронные сети имеют относительно строгий дизайн. Конечно, как правило, они находятся под влиянием биологии и пытаются построить математическую модель реальных нейронных сетей, но нашего понимания реальных нейронных сетей недостаточно для построения точных моделей. Поэтому …

24 machine-learning neural-networks bioinformatics artificial-intelligence neuroscience

Вопросы с тегом «machine-learning»