Статистика и большие данные machine-learning

1

Вариационный вывод по сравнению с MCMC: когда выбрать один из других?

Я думаю, что я получил общее представление о VI и MCMC, включая различные разновидности MCMC, такие как выборка Гиббса, Metropolis Hastings и т. Д. Эта статья представляет собой прекрасное изложение обоих методов. У меня есть следующие вопросы: Если я хочу сделать байесовский вывод, почему я выбрал бы один метод вместо …

37 machine-learning bayesian mcmc variational-bayes approximate-inference

5

Как работать с моделью саморазрушительного прогнозирования?

Я смотрел презентацию специалиста по ML из крупного ритейлера, где они разработали модель для прогнозирования событий на складе. Давайте на минутку предположим, что со временем их модель становится очень точной, не будет ли это как-то «самоубийственно»? То есть, если модель действительно работает хорошо, то они смогут предвидеть события, отсутствующие на …

36 machine-learning predictive-models

3

Что нужно учитывать в магистерских программах по статистике

Это сезон поступления в аспирантуру. Я (и многие такие студенты, как я) сейчас пытаюсь решить, какую статистическую программу выбрать. Что те из вас, кто работает со статистикой, предлагают нам подумать о магистерских программах по статистике? Есть ли общие ошибки или ошибки, которые делают ученики (возможно, в отношении репутации школы)? Что …

36 machine-learning mathematical-statistics careers

4

Платформы облачных вычислений для машинного обучения [закрыто]

У меня есть небольшой список компаний, которые предоставляют платформу для запуска R, Python или октавных сценариев на кластерах, построенных на основе Amazon EC2. Есть ли другие имена, которые я должен добавить? Cloudnumbers Opani crdata

36 r machine-learning

3

Создание «оценки достоверности» из голосов в случайных лесах?

Я рассчитываю обучить классификатор, который будет различать объекты Type Aи Type Bобъекты с достаточно большим обучающим набором, состоящим примерно из 10 000 объектов, около половины из которых есть, Type Aа половина из них Type B. Набор данных состоит из 100 непрерывных элементов, детализирующих физические свойства ячеек (размер, средний радиус и …

36 r machine-learning random-forest

3

Машинное обучение: должен ли я использовать категориальную кросс-энтропию или двоичную кросс-энтропийную потерю для бинарных предсказаний?

Прежде всего, я понял, что если мне нужно выполнить двоичные предсказания, я должен создать как минимум два класса, выполняя горячее кодирование. Это верно? Однако является ли двоичная кросс-энтропия только для предсказаний только с одним классом? Если бы я использовал категориальную кросс-энтропийную потерю, которая обычно встречается в большинстве библиотек (например, TensorFlow), …

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

2

Повышение градиента для линейной регрессии - почему это не работает?

При изучении Gradient Boosting я не слышал о каких-либо ограничениях в отношении свойств «слабого классификатора», который метод использует для построения и ансамбля модели. Однако я не мог представить себе применение ГБ, которое использует линейную регрессию, и на самом деле, когда я выполнил некоторые тесты - это не работает. Я тестировал …

35 regression machine-learning boosting ensemble gradient

3

PCA и разделение поезда / теста

У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для всего набора данных, а затем использовать …

35 machine-learning classification pca cross-validation

4

Каковы различия между разреженным кодированием и автоэнкодером?

Разреженное кодирование определяется как изучение слишком полного набора базовых векторов для представления входных векторов (<- зачем нам это нужно). Каковы различия между разреженным кодированием и автоэнкодером? Когда мы будем использовать разреженное кодирование и автоэнкодер?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

5

Свободный набор данных для очень высокой размерной классификации [закрыто]

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

35 machine-learning classification dataset large-data

5

Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …

34 machine-learning cross-validation bootstrap optimization resampling

3

Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов

У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных значениях в функции? В любом случае, означает ли среднее …

34 r machine-learning classification random-forest

5

Что именно является байесовской моделью?

Можно ли назвать модель, в которой используется теорема Байеса, «байесовской моделью»? Боюсь, такое определение может быть слишком широким. Так что же такое байесовская модель?

34 machine-learning bayesian

4

Какова слабая сторона деревьев решений?

Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях. Каковы практические слабые стороны деревьев решений?

34 machine-learning nonparametric cart

6

Интеллектуальный анализ данных: как мне найти функциональную форму?

Мне любопытно , повторяемых процедур , которые могут быть использованы , чтобы обнаружить функциональную форму функции , y = f(A, B, C) + error_termгде мой единственный вход множество наблюдений ( y, A, Bи C). Обратите внимание, что функциональная форма fнеизвестна. Рассмотрим следующий набор данных: AA BB CC DD EE FF …

34 regression machine-learning algorithms model-selection data-mining

Вопросы с тегом «machine-learning»