Вопросы с тегом «machine-learning»

Методы и принципы построения «компьютерных систем, которые автоматически улучшаются с опытом».

1
Почему ReLU лучше, чем другие функции активации
Здесь ответ относится к исчезающему и взрывному градиенту, который был sigmoidпохож на функции активации, но, я думаю, Reluимеет недостаток, и это его ожидаемое значение. нет ограничений на вывод Reluи поэтому его ожидаемое значение не равно нулю. Я помню время , прежде чем популярность , Reluчто tanhбыл самым популярным среди машинного …

2
Doc2Vec - Как пометить абзацы (gensim)
Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или предложения больше всего похожи на …

3
Bagging vs Dropout в глубоких нейронных сетях
Пакетирование - это создание нескольких предикторов, которые работают так же, как и один предиктор. Dropout - это метод, который обучает нейронные сети усреднять все возможные подсети. Глядя на наиболее важные соревнования Kaggle, кажется, что эти две техники используются вместе очень часто. Я не вижу никакой теоретической разницы, кроме фактической реализации. …

3
Ближайшие соседи ищут данные очень большого размера
У меня есть большая разреженная матрица пользователей и элементов, которые им нравятся (порядка 1М пользователей и 100 тыс. Элементов с очень низким уровнем разреженности). Я исследую способы, которыми я мог бы выполнить поиск kNN на нем. Учитывая размер моего набора данных и некоторые начальные тесты, которые я выполнил, я предполагаю, …

2
Используйте liblinear на больших данных для семантического анализа
Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи. В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является …

5
Обнаружение кошек визуально с помощью обнаружения аномалий
У меня есть хобби-проект, который я собираюсь посвятить как способ увеличить свой пока ограниченный опыт машинного обучения. Я взял и закончил Coursera MOOC по этой теме. Мой вопрос касается осуществимости проекта. Задача следующая: Соседние кошки время от времени посещают мой сад, что мне не нравится, поскольку они имеют тенденцию испражняться …

2
Зачем использовать набор проверки и набор тестов?
Рассмотрим нейронную сеть: Для данного набора данных мы делим его на наборы для обучения, проверки и тестирования. Предположим, что мы делаем это в классическом соотношении 60:20:20, тогда мы предотвращаем переобучение, проверяя сеть, проверяя ее на наборе проверки. Тогда зачем тестировать его на тестовом наборе, чтобы проверить его работоспособность? Не будет …

5
Объединение разреженных и плотных данных в машинном обучении для повышения производительности
У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе, плотные функции имеют тенденцию доминировать в большей степени, чем разреженные, …

2
Должны ли мы применять нормализацию и к тестовым данным?
Я делаю проект по проблеме идентификации автора. Я применил нормализацию tf-idf для обучения данных, а затем обучил SVM на этих данных. Теперь при использовании классификатора я должен также нормализовать тестовые данные. Я чувствую, что основная цель нормализации - сделать так, чтобы обучающий алгоритм придавал больший вес более важным функциям во …

2
Где в рабочем процессе мы должны иметь дело с отсутствующими данными?
Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения предикторов. Это просто в рамках единой платформы аналитики …

1
Что такое оценка LB в машинном обучении?
Я просматривал статью в блогах Kaggle. Неоднократно автор упоминает «оценку LB» и «соответствие LB») в качестве показателя эффективности машинного обучения (наряду с оценкой перекрестной проверки (CV)). С исследованием значения «LB» я потратил довольно много времени, я понял, что обычно люди напрямую называют его как LB без особой подготовки. Итак, мой …

3
Что такое вес и уклон в глубоком обучении?
Я начинаю изучать машинное обучение с сайта Tensorflow. Я разработал очень элементарное понимание процесса, которому следует программа глубокого обучения (этот метод заставляет меня учиться быстрее, чем читать книги и большие статьи). Есть несколько запутанных вещей, с которыми я столкнулся, 2 из них: предвзятость Вес В учебном пособии MNIST на веб-сайте …

2
Какие задачи обучения подходят для машин опорных векторов?
Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не нейронные сети, деревья решений или что-то еще?

2
Как повысить точность классификаторов?
Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000 экземплярами и 16 функциями, которые я разделил пополам для обучения и тестирования. …

2
Как выбрать функции для нейронной сети?
Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта функция …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.