Наука о данных machine-learning

1

Почему ReLU лучше, чем другие функции активации

Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного …

17 machine-learning neural-network deep-learning gradient-descent activation-function

2

Doc2Vec - Как пометить абзацы (gensim)

Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на …

17 machine-learning text-mining word-embeddings word2vec

3

Bagging vs Dropout в глубоких нейронных сетях

Пакетирование - это создание нескольких предикторов, которые работают так же, как и один предиктор. Dropout - это метод, который обучает нейронные сети усреднять все возможные подсети. Глядя на наиболее важные соревнования Kaggle, кажется, что эти две техники используются вместе очень часто. Я не вижу никакой теоретической разницы, кроме фактической реализации. …

17 machine-learning neural-network deep-learning

3

Ближайшие соседи ищут данные очень большого размера

У меня есть большая разреженная матрица пользователей и элементов, которые им нравятся (порядка 1М пользователей и 100 тыс. Элементов с очень низким уровнем разреженности). Я исследую способы, которыми я мог бы выполнить поиск kNN на нем. Учитывая размер моего набора данных и некоторые начальные тесты, которые я выполнил, я предполагаю, …

17 machine-learning distributed map-reduce dimensionality-reduction

2

Используйте liblinear на больших данных для семантического анализа

Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи. В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является …

17 machine-learning bigdata libsvm

5

Обнаружение кошек визуально с помощью обнаружения аномалий

У меня есть хобби-проект, который я собираюсь посвятить как способ увеличить свой пока ограниченный опыт машинного обучения. Я взял и закончил Coursera MOOC по этой теме. Мой вопрос касается осуществимости проекта. Задача следующая: Соседние кошки время от времени посещают мой сад, что мне не нравится, поскольку они имеют тенденцию испражняться …

17 machine-learning

2

Зачем использовать набор проверки и набор тестов?

Рассмотрим нейронную сеть: Для данного набора данных мы делим его на наборы для обучения, проверки и тестирования. Предположим, что мы делаем это в классическом соотношении 60:20:20, тогда мы предотвращаем переобучение, проверяя сеть, проверяя ее на наборе проверки. Тогда зачем тестировать его на тестовом наборе, чтобы проверить его работоспособность? Не будет …

17 machine-learning neural-network cross-validation

5

Объединение разреженных и плотных данных в машинном обучении для повышения производительности

У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе, плотные функции имеют тенденцию доминировать в большей степени, чем разреженные, …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

2

Должны ли мы применять нормализацию и к тестовым данным?

Я делаю проект по проблеме идентификации автора. Я применил нормализацию tf-idf для обучения данных, а затем обучил SVM на этих данных. Теперь при использовании классификатора я должен также нормализовать тестовые данные. Я чувствую, что основная цель нормализации - сделать так, чтобы обучающий алгоритм придавал больший вес более важным функциям во …

17 machine-learning neural-network deep-learning

2

Где в рабочем процессе мы должны иметь дело с отсутствующими данными?

Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения предикторов. Это просто в рамках единой платформы аналитики …

16 machine-learning python pandas scikit-learn

1

Что такое оценка LB в машинном обучении?

Я просматривал статью в блогах Kaggle. Неоднократно автор упоминает «оценку LB» и «соответствие LB») в качестве показателя эффективности машинного обучения (наряду с оценкой перекрестной проверки (CV)). С исследованием значения «LB» я потратил довольно много времени, я понял, что обычно люди напрямую называют его как LB без особой подготовки. Итак, мой …

16 machine-learning accuracy

3

Что такое вес и уклон в глубоком обучении?

Я начинаю изучать машинное обучение с сайта Tensorflow. Я разработал очень элементарное понимание процесса, которому следует программа глубокого обучения (этот метод заставляет меня учиться быстрее, чем читать книги и большие статьи). Есть несколько запутанных вещей, с которыми я столкнулся, 2 из них: предвзятость Вес В учебном пособии MNIST на веб-сайте …

16 machine-learning deep-learning tensorflow

2

Какие задачи обучения подходят для машин опорных векторов?

Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не нейронные сети, деревья решений или что-то еще?

16 machine-learning svm supervised-learning unsupervised-learning

2

Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

16 machine-learning classification svm accuracy random-forest

2

Как выбрать функции для нейронной сети?

Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта функция …

16 machine-learning neural-network feature-selection feature-extraction

Вопросы с тегом «machine-learning»