Вопросы с тегом «gradient-descent»

Градиентный спуск - это алгоритм итеративной оптимизации первого порядка. Чтобы найти локальный минимум функции с использованием градиентного спуска, необходимо выполнить шаги, пропорциональные отрицательному значению градиента (или приблизительного градиента) функции в текущей точке. Для стохастического градиентного спуска есть также тег [sgd].

5
Почему k-means не дает глобального минимума?
Я читал, что алгоритм k-средних сходится только к локальному минимуму, а не к глобальному минимуму. Почему это? Я могу логически подумать о том, как инициализация может повлиять на окончательную кластеризацию, и есть вероятность неоптимальной кластеризации, но я не нашел ничего, что математически доказало бы это. Кроме того, почему k-означает итеративный …


3
В чем разница между онлайн и пакетным обучением?
В настоящее время я читаю статью « Эффективное онлайн и пакетное обучение с использованием прямого и обратного разделения » Джона Дючи и Йорама Сингера. Я очень смущен использованием терминов «Онлайн» и «Пакетный режим». Я подумал: «Онлайн» означает, что мы обновляем весовые параметры после обработки одной единицы тренировочных данных. Затем мы …

1
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?
Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента weights_grad функции потерь для всего набора данных с нашими параметрами вектора параметров. Stochastic …

1
Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска
Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации». Оригинальное правило персептрона Розенблатта Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения через Δ ш( т + 1 )= Δ ш( т )+ η( Т г ге т …

1
Сумма или среднее градиентов в (мини) пакетном градиенте приличное?
Когда я реализовал мини-пакетный градиент приличный, я просто усреднил градиенты всех примеров в обучающей партии. Тем не менее, я заметил, что сейчас оптимальная скорость обучения намного выше, чем для приличного онлайн градиента. Моя интуиция заключается в том, что это происходит из-за того, что усредненный градиент менее шумный и, таким образом, …

1
Как CNN's избегают исчезающей проблемы градиента
Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого избежать в CNN. Согласно Википедии : «Несмотря …

1
Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?
Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами нейронных сетей. Есть ли причина для этого? Если людям …

4
Как это может быть пойман в ловушку в седловой точке?
В настоящее время я немного озадачен тем, как мини-пакетный градиентный спуск может быть пойман в ловушку. Решение может быть слишком тривиальным, чтобы я его не понял. Вы получаете новую выборку каждую эпоху, и она вычисляет новую ошибку на основе новой партии, поэтому функция стоимости является статической только для каждой партии, …

1
Функции стоимости для контекстных бандитов
Я использую vowpal wabbit для решения проблемы контекстуального бандита . Я показываю рекламу пользователям, и у меня есть достаточно информации о контексте, в котором показывается реклама (например, кто такой пользователь, на каком сайте он находится и т. Д.). Похоже, это довольно классическая контекстная проблема бандитов, описанная Джоном Лэнгфордом . В …

2
Градиентный спуск против функции lm () в R?
Я просматриваю видео в бесплатном онлайн-курсе Эндрю Нг по машинному обучению в Стэнфорде. Он рассматривает Gradient Descent как алгоритм для решения функций линейной регрессии и записи в Octave для его выполнения. Предположительно я мог бы переписать эти функции в R, но мой вопрос в том, разве функция lm () уже …

5
Почему градиентный спуск неэффективен для большого набора данных?
Допустим, наш набор данных содержит 1 миллион примеров, то есть , и мы хотим использовать градиентный спуск, чтобы выполнить логистическую или линейную регрессию для этого набора данных.Икс1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Что с методом градиентного спуска делает его неэффективным? Напомним, что шаг градиентного спуска в момент времени определяется как:Ttt …

1
Почему на практике не используется алгоритм спуска «без седловых ньютонов»?
Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать от застревания в седловых точках. как методы первого …

1
Выбор подходящего размера мини-партии для стохастического градиентного спуска (SGD)
Есть ли литература, в которой рассматривается выбор размера мини-партии при выполнении стохастического градиентного спуска? По моему опыту, это, кажется, эмпирический выбор, обычно находящийся в перекрестной проверке или с использованием различных практических правил. Является ли хорошей идеей медленно увеличивать размер мини-пакета по мере уменьшения ошибки проверки? Как это повлияет на ошибку …

2
Градиентный спуск не находит решения для обычных наименьших квадратов в этом наборе данных?
Я изучал линейную регрессию и попробовал ее на приведенном ниже множестве {(x, y)}, где x указал площадь дома в квадратных футах, а y - цену в долларах. Это первый пример в Andrew Ng Notes . 2104.400 1600.330 2400.369 1416.232 3000.540 Я разработал пример кода, но когда я его запускаю, стоимость …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.