Вопросы с тегом «deep-learning»

новая область исследований в области машинного обучения, связанная с технологиями, используемыми для изучения иерархического представления данных, в основном с глубокими нейронными сетями (т. е. с двумя или более скрытыми слоями), а также с какими-то вероятностными графическими моделями.

3
Почему сообщества НЛП и машинного обучения заинтересованы в глубоком обучении?
Я надеюсь, что вы можете мне помочь, так как у меня есть несколько вопросов на эту тему. Я новичок в области глубокого обучения, и хотя я сделал несколько уроков, я не могу связать или отличить понятия друг от друга.

3
В чем разница между градиентным спуском и стохастическим градиентным спуском?
В чем разница между градиентным спуском и стохастическим градиентным спуском? Я не очень знаком с ними, можете ли вы описать разницу с помощью короткого примера?


6
Почему сверточные нейронные сети работают?
Я часто слышал, как люди говорили, почему сверточные нейронные сети все еще плохо поняты. Известно ли, почему сверточные нейронные сети всегда заканчивают тем, что изучают все более сложные функции, когда мы поднимаемся по уровням? Что заставило их создать такой набор функций, и будет ли это также верно для других типов …

1
Существуют ли правила выбора размера мини-партии?
При обучении нейронных сетей одним гиперпараметром является размер мини-пакета. Обычный выбор - 32, 64 и 128 элементов в каждой партии. Существуют ли какие-либо правила / рекомендации, какими большими должны быть мини-партии? Какие-нибудь публикации, которые исследуют влияние на обучение?

4
Всегда ли градиентный спуск сходится к оптимальному?
Мне интересно, есть ли сценарий, при котором градиентный спуск не сходится к минимуму. Я осознаю, что градиентный спуск не всегда может привести к глобальному оптимуму. Я также знаю, что он может отличаться от оптимального, если, скажем, размер шага слишком велик. Тем не менее, мне кажется, что если он отклоняется от …

1
Прогнозирование временных рядов с использованием LSTM: важность обеспечения устойчивости временных рядов
В этой ссылке на Стационарность и разность было упомянуто, что модели, подобные ARIMA, требуют стационарного временного ряда для прогнозирования, поскольку его статистические свойства, такие как среднее значение, дисперсия, автокорреляция и т. Д., Постоянны во времени. Поскольку RNN обладают лучшей способностью изучать нелинейные отношения ( согласно приведенному здесь: «Обещание повторяющихся нейронных …

4
Как получить точность, F1, точность и отзыв, для модели Keras?
Я хочу вычислить точность, отзыв и оценку F1 для моей двоичной модели KerasClassifier, но не нашел никакого решения. Вот мой фактический код: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) …

2
Выбор между TensorFlow или Theano в качестве бэкэнда для Keras
Keras поддерживает как TensorFlow, так и Theano в качестве бэкенда: каковы плюсы / минусы выбора одного против другого, кроме того факта, что в настоящее время не все операции реализованы с бэкэндом TensorFlow?

3
Извлечение ключевого слова / фразы из текста с использованием библиотек Deep Learning
Возможно, это слишком широко, но я ищу ссылки на то, как использовать глубокое обучение в задаче обобщения текста. Я уже реализовал суммирование текста, используя стандартные частотно-частотные подходы и ранжирование предложений, но я хотел бы изучить возможность использования методов глубокого обучения для этой задачи. Я также рассмотрел некоторые реализации, представленные на …

2
Керас против тф.керас
Я немного запутался в выборе между Keras (keras-team / keras) и tf.keras (tenorflow / tenorflow / python / keras /) для моего нового исследовательского проекта. Существует дискуссия о том, что Keras не принадлежит никому, поэтому люди будут рады внести свой вклад, и в будущем будет намного легче управлять проектом. С …

2
Почему ReLU используется в качестве функции активации?
Функции активации используются для введения нелинейностей в линейный вывод типа w * x + bв нейронной сети. Что я могу понять интуитивно для функций активации, таких как сигмоидальные. Я понимаю преимущества ReLU, который избегает мертвых нейронов во время обратного распространения. Однако я не могу понять, почему ReLU используется в качестве …

4
Поиск гиперпараметра для LSTM-RNN с использованием Keras (Python)
Из Keras RNN Tutorial: «RNNs сложны. Выбор размера пакета важен, выбор потерь и оптимизатора важен и т. Д. Некоторые конфигурации не сходятся». Так что это более общий вопрос о настройке гиперпараметров LSTM-RNN на Keras. Я хотел бы знать о подходе к поиску лучших параметров для вашего RNN. Я начал с …

2
локальные минимумы против седловых точек в глубоком обучении
Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в глубокое обучение) критические точки, скорее всего, будут …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.