Вопросы с тегом «deep-learning»

Область машинного обучения связана с изучением иерархических представлений данных, в основном с глубокими нейронными сетями.

3
Как именно сверточные нейронные сети используют свертку вместо умножения матриц?
Я читал Книгу Йошуа Бенжио по глубокому обучению, и на странице 224 написано: Сверточные сети - это просто нейронные сети, которые используют свертку вместо общего умножения матриц, по крайней мере, на одном из их уровней. однако я не был уверен на 100% в том, как «заменить умножение матриц сверткой» в …

1
Как тренировать LSTM слой глубокой сети
Я использую lstm и сеть прямой связи для классификации текста. Я преобразую текст в горячие векторы и подаю каждый в lstm, чтобы суммировать его как единое представление. Затем я передаю его в другую сеть. Но как мне тренировать LSTM? Я просто хочу последовательно классифицировать текст - я должен кормить его …

1
Почему на практике не используется алгоритм спуска «без седловых ньютонов»?
Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать от застревания в седловых точках. как методы первого …


1
Выбор подходящего размера мини-партии для стохастического градиентного спуска (SGD)
Есть ли литература, в которой рассматривается выбор размера мини-партии при выполнении стохастического градиентного спуска? По моему опыту, это, кажется, эмпирический выбор, обычно находящийся в перекрестной проверке или с использованием различных практических правил. Является ли хорошей идеей медленно увеличивать размер мини-пакета по мере уменьшения ошибки проверки? Как это повлияет на ошибку …

2
Модель Google Inception: почему существует несколько softmax?
Топологию модели Google Inception можно найти здесь: Google Inception Netowrk Я заметил, что в этой модели есть 3 слоя softmax (# 154, # 152, # 145), и 2 из них являются своего рода ранним выходом из этой модели. Из того, что я знаю, слой softmax предназначен для окончательного вывода, так …

3
Может ли нейронная сеть (например, сверточная нейронная сеть) иметь отрицательные веса?
Можно ли иметь отрицательные веса (после достаточного количества эпох) для глубоких сверточных нейронных сетей, когда мы используем ReLU для всех уровней активации?

5
Существует ли визуальный инструмент для проектирования и применения нейронных сетей / глубокого обучения? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я знаю, что есть много библиотек для машинного обучения и глубокого обучения, таких как caffe, Theano, TensorFlow, keras, ... …

1
Матричная форма обратного распространения с нормализацией партии
Нормализация партии была приписана существенным улучшениям производительности в глубоких нейронных сетях. Много материала в интернете показывает, как реализовать его на основе активации за активацию. Я уже реализовал backprop, используя матричную алгебру, и учитывая, что я работаю на языках высокого уровня (полагаясь Rcpp(и, в конечном итоге, на GPU) на плотное матричное …

3
Нейронные архитектуры: автоматическое проектирование на основе данных
Недавний прогресс в нейронных сетях суммируется последовательностью новых архитектур, характеризующихся главным образом ее растущей сложностью проектирования. От LeNet5 (1994) до AlexNet (2012), Overfeat (2013) и GoogleLeNet / Inception (2014) и так далее ... Есть ли попытка позволить машине решить / спроектировать, какую архитектуру использовать в зависимости от данных?

4
Как (систематически) настроить скорость обучения с использованием градиентного спуска в качестве оптимизатора?
Посторонний в поле ML / DL; начал курс Udacity Deep Learning, основанный на Tensorflow; выполняя задание 3, задача 4; пытаясь настроить скорость обучения с помощью следующего конфига: Размер партии 128 Количество шагов: достаточно, чтобы заполнить 2 эпохи Размеры скрытых слоев: 1024, 305, 75 Инициализация веса: усеченный в норме с помощью …

2
Захват начальных образцов при использовании усеченного обратного распространения по времени (RNN / LSTM)
Скажем, я использую RNN / LSTM для анализа настроений, который является подходом «многие к одному» (см. Этот блог ). Сеть обучается по усеченному обратному распространению по времени (BPTT), где сеть разворачивается всего за 30 последних шагов, как обычно. В моем случае каждый из моих текстовых разделов, которые я хочу классифицировать, …

2
Почему функция потерь 0-1 неразрешима?
В книге глубокого обучения Яна Гудфеллоу написано, что Иногда функция потерь, о которой мы действительно заботимся (скажем, ошибка классификации), не может быть эффективно оптимизирована. Например, точное минимизация ожидаемых потерь 0-1 обычно трудно (экспоненциально во входном измерении) даже для линейного классификатора. В таких ситуациях обычно вместо этого оптимизируют функцию суррогатных потерь, …

3
Мотивирующие сигмовидные выходные блоки в нейронных сетях, начиная с ненормализованных логарифмических вероятностей, линейных по
Справочная информация: я изучаю 6-ю главу «Глубокое обучение» Иана Гудфеллоу, Йошуа Бенжио и Аарона Курвилля. В разделе 6.2.2.2 (страницы 182 из 183, которые можно посмотреть здесь ) использование сигмоиды для вывода п( у= 1 | х )п(Yзнак равно1|Икс)P(y=1|x) мотивировано . Чтобы суммировать некоторые материалы, они позволяют быть выходным нейроном до …

2
Keras: почему убыток уменьшается, а val_loss увеличивается?
Я настроил сетку для поиска группы параметров. Я пытаюсь найти лучшие параметры для нейронной сети Keras, которая выполняет бинарную классификацию. Выходное значение равно 1 или 0. Имеется около 200 функций. Когда я сделал поиск по сетке, я получил несколько моделей и их параметры. Лучшая модель имела следующие параметры: Epochs : …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.