Вопросы с тегом «machine-learning»

Методы и принципы построения «компьютерных систем, которые автоматически улучшаются с опытом».

8
Кластеризация координат географического местоположения (широта, длинные пары)
Каков правильный подход и алгоритм кластеризации для геолокации? Я использую следующий код для кластеризации координат геолокации: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); …

8
Почему переобучение плохо в машинном обучении?
Логика часто утверждает, что из-за переобучения модели ее способность к обобщению ограничена, хотя это может означать лишь то, что переоснащение мешает модели улучшиться после определенной сложности. Вызывает ли переоснащение моделей ухудшение независимо от сложности данных, и если да, то почему это так? Связанный: Продолжение к вопросу выше, " Когда Модель …

5
Нейронные сети: какую функцию стоимости использовать?
Я использую TensorFlow для экспериментов в основном с нейронными сетями. Хотя я провел довольно много экспериментов (XOR-Problem, MNIST, некоторые вещи регрессии, ...), я борюсь с выбором «правильной» функции стоимости для конкретных задач, потому что в целом я мог бы считаться новичком. До прихода в TensorFlow я самостоятельно кодировал некоторые полностью …

9
Есть ли домен, в котором байесовские сети превосходят нейронные сети?
Нейронные сети получают лучшие результаты в задачах Computer Vision (см. MNIST , ILSVRC , Kaggle Galaxy Challenge ). Кажется, они превосходят любой другой подход в Computer Vision. Но есть и другие задачи: Kaggle Molecular Activity Challenge Регрессия: предсказание Kaggle Rain , также 2-е место Возьмите и поднимите 2-е, а также …

5
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?
Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), …

10
Машинное обучение - особенности проектирования из данных даты / времени
Каковы общие / лучшие практики для обработки данных о времени для приложения машинного обучения? Например, если в наборе данных есть столбец с отметкой времени события, например «2014-05-05», как вы можете извлечь полезные функции из этого столбца, если таковые имеются? Заранее спасибо!

4
Добавление функций к модели временных рядов LSTM
немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь предположим, …

5
GBM против XGBOOST? Ключевые отличия?
Я пытаюсь понять ключевые различия между GBM и XGBOOST. Я пытался найти его в Google, но не смог найти хороших ответов, объясняющих различия между двумя алгоритмами и почему xgboost почти всегда работает лучше, чем GBM. Что делает XGBOOST таким быстрым?

10
Почему модели машинного обучения называют черными ящиками?
Я читал этот пост в блоге под названием «Финансовый мир хочет открыть черные ящики ИИ» , где автор неоднократно называет модели ML «черными ящиками». Подобная терминология использовалась в нескольких местах при обращении к моделям ML. Почему это так? Не то чтобы инженеры ML не знали, что происходит внутри нейронной сети. …

4
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?
Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во время итерации обучения; и эпоха - …

10
Могут ли алгоритмы машинного обучения предсказать спортивные результаты или результаты?
У меня есть множество наборов данных НФЛ, которые, я думаю, могли бы стать хорошим побочным проектом, но я пока ничего с ними не сделал. Приход на этот сайт заставил меня задуматься об алгоритмах машинного обучения, и мне стало интересно, насколько они хороши в прогнозировании результатов футбольных игр или даже следующей …

11
Наука о данных в C (или C ++)
Я Rпрограммист по языку. Я также вхожу в группу людей, которые считаются специалистами по данным, но приходят из академических дисциплин, отличных от CS. Это хорошо работает в моей роли Data Scientist, однако, начав свою карьеру Rи имея только базовые знания других скриптовых / веб-языков, я чувствовал себя несколько неадекватно в …

3
Когда что использовать - Машинное обучение [закрыто]
Недавно в классе машинного обучения профессора Ориола Пухоля в UPC / Барселона он описал наиболее распространенные алгоритмы, принципы и концепции, которые можно использовать для решения широкого круга задач, связанных с машинным обучением. Здесь я делюсь ими с вами и спрашиваю вас: Существует ли какая-либо всеобъемлющая структура, сопоставляющая задачи с подходами …

2
Как интерпретировать вывод значения XGBoost?
Я запустил модель xgboost. Я точно не знаю, как интерпретировать вывод xgb.importance. В чем смысл усиления, покрытия и частоты и как мы их интерпретируем? Кроме того, что означает Split, RealCover и RealCover%? У меня есть некоторые дополнительные параметры здесь Есть ли другие параметры, которые могут рассказать мне больше о важности …

13
Смешные цитаты, связанные с наукой о данных
Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь ежедневно

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.