Вопросы с тегом «deep-learning»

новая область исследований в области машинного обучения, связанная с технологиями, используемыми для изучения иерархического представления данных, в основном с глубокими нейронными сетями (т. е. с двумя или более скрытыми слоями), а также с какими-то вероятностными графическими моделями.

5
В чем проблема «умирающего ReLU» в нейронных сетях?
Ссылаясь на заметки Стэнфордского курса о сверточных нейронных сетях для визуального распознавания , в параграфе говорится: «К сожалению, юниты ReLU могут быть хрупкими во время обучения и могут« умереть ». Например, большой градиент, протекающий через нейрон ReLU, может привести к тому, что веса обновятся таким образом, что нейрон никогда не …

6
Когда использовать GRU поверх LSTM?
Основное различие между ГРУ и LSTM является то , что ГРУ имеет два ворот ( сброс и обновление Gates) в то время как LSTM имеет три ворота (а именно вход , выход и забыть ворота). Почему мы используем GRU, когда мы четко контролируем сеть через модель LSTM (так как у …

8
Выбор скорости обучения
В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента ошибки, так как он определяет скорость снижения? Если …

15
Как вы визуализируете архитектуры нейронных сетей?
При написании статьи / создании презентации по теме, касающейся нейронных сетей, обычно визуализируют архитектуру сетей. Каковы хорошие / простые способы автоматической визуализации общих архитектур?


5
Прогнозирование временных рядов с использованием ARIMA против LSTM
Проблема, с которой я имею дело, заключается в прогнозировании значений временных рядов. Я смотрю на один временной ряд за раз и на основе, например, 15% входных данных, я хотел бы предсказать его будущие значения. До сих пор я сталкивался с двумя моделями: LSTM (долговременная кратковременная память; класс рекуррентных нейронных сетей) …

2
Когда использовать (He или Glorot) нормальную инициализацию поверх равномерного init? И каковы его эффекты с нормализацией партии?
Я знал, что Residual Network (ResNet) сделал обычную инициализацию популярной. В ResNet используется обычная инициализация He , в то время как первый уровень использует равномерную инициализацию He. Я просмотрел документ ResNet и документ «Углубление в выпрямители» (документ об инициализации), но я не нашел упоминаний о обычном init против стандартного init. …

3
Как бороться с подгонкой в ​​глубокой нейронной сети
Когда я начинал с искусственных нейронных сетей (NN), я думал, что мне придется бороться с переоснащением в качестве основной проблемы. Но на практике я даже не могу заставить свой NN пройти барьер 20% ошибок. Я даже не могу побить свой счет в случайном лесу! Я ищу какой-то очень общий или …

3
Количество параметров в модели LSTM
Сколько параметров у одного стекового LSTM? Количество параметров накладывает нижнюю границу на количество необходимых обучающих примеров, а также влияет на время обучения. Следовательно, знание количества параметров полезно для моделей обучения, использующих LSTM.

4
Добавление функций к модели временных рядов LSTM
немного читал о LSTM и их использовании для временных рядов, и это было интересно, но в то же время сложно. У меня возникли трудности с пониманием - это подход к добавлению дополнительных функций в список временных рядов. Предположим, у вас есть такой набор данных: т-3, Т-2, Т-1, выход Теперь предположим, …

4
Почему размер мини-партии лучше, чем одна «партия» со всеми данными обучения?
Я часто читаю, что в случае моделей глубокого обучения обычная практика - применять мини-партии (как правило, маленькие, 32/64) в течение нескольких тренировочных эпох. Я не могу понять причину этого. Если я не ошибаюсь, размер пакета - это количество обучающих экземпляров, которые модель увидит во время итерации обучения; и эпоха - …

3
Влияет ли batch_size в Keras на качество результатов?
Я собираюсь обучить большую сеть LSTM с 2-3 миллионами статей и борюсь с ошибками памяти (я использую AWS EC2 g2x2large). Я обнаружил, что одним из решений является снижение batch_size. Однако я не уверен, относится ли этот параметр только к проблемам эффективности памяти или повлияет ли он на мои результаты. На …

3
В чем разница между «эквивалентным переводу» и «инвариантным переводом»
У меня проблемы с пониманием разницы между эквивариантным переводом и инвариантным переводом . В книге Глубокое обучение . MIT Press, 2016 (И. Гудфеллоу, А. Курвилл и Ю. Бенжио), можно найти в сверточных сетях: [...] особая форма совместного использования параметров приводит к тому, что уровень имеет свойство, называемое эквивалентностью переводу [...] …

13
Смешные цитаты, связанные с наукой о данных
Пользователи различных сообществ обычно цитируют забавные вещи об их полях. Может быть интересно поделиться своими забавными вещами о машинном обучении, углубленном обучении, науке о данных и вещах, с которыми вы сталкиваетесь ежедневно

6
Объяснение потери энтропии
Предположим, я строю NN для классификации. Последний слой является плотным слоем с активацией softmax. У меня есть пять разных классов для классификации. Предположим , что для одного примера обучения, true labelявляется в [1 0 0 0 0]то время как прогнозы будут [0.1 0.5 0.1 0.1 0.2]. Как бы я рассчитал …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.