Вопросы с тегом «optimization»

Используйте этот тег для любого использования оптимизации в статистике.

8
Почему метод Ньютона не широко используется в машинном обучении?
Это то, что беспокоило меня какое-то время, и я не смог найти удовлетворительных ответов в Интернете, так что вот так: После рассмотрения ряда лекций по выпуклой оптимизации метод Ньютона, по-видимому, является гораздо более совершенным алгоритмом, чем градиентный спуск, для поиска глобально оптимальных решений, поскольку метод Ньютона может обеспечить гарантию его …

3
Пакетный градиентный спуск против стохастического градиентного спуска
Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = …

6
Можно ли обучить нейронную сеть без обратного распространения?
Многие книги и учебные пособия по нейронной сети тратят много времени на алгоритм обратного распространения, который по сути является инструментом для вычисления градиента. Давайте предположим, что мы строим модель с ~ 10K параметров / весов. Можно ли запустить оптимизацию, используя некоторые алгоритмы оптимизации без градиента? Я думаю, что вычисление числового …


7
Зачем оптимизировать максимальную логарифмическую вероятность вместо вероятности
В большинстве задач машинного обучения, где вы можете сформулировать некоторую вероятность которая должна быть максимизирована, мы фактически оптимизировали бы логарифмическую вероятность вместо вероятности для некоторых параметров . Например, в обучении с максимальным правдоподобием, это, как правило, логарифмическое правдоподобие. При выполнении этого с некоторым методом градиента, это включает в себя фактор:ppplogplog⁡p\log …

7
Оптимизация, когда функция стоимости медленна для оценки
Градиентный спуск и многие другие методы полезны для нахождения локальных минимумов в функциях стоимости. Они могут быть эффективными, когда функцию стоимости можно быстро оценить в каждой точке, численно или аналитически. У меня есть то, что мне кажется необычной ситуацией. Каждая оценка моей функции стоимости дорогая. Я пытаюсь найти набор параметров, …

5
Каково интуитивное объяснение того, как PCA превращается из геометрической задачи (с расстояниями) в задачу линейной алгебры (с собственными векторами)?
Я много читал о PCA, включая различные учебники и вопросы (такие как этот , этот , этот и этот ). Геометрическая проблема, которую пытается оптимизировать PCA, мне ясна: PCA пытается найти первый главный компонент, сводя к минимуму ошибку реконструкции (проекции), которая одновременно максимизирует дисперсию проецируемых данных. Когда я впервые прочитал …

4
В чем разница между градиентным спуском на основе импульса и ускоренным градиентным спуском Нестерова?
Таким образом, градиентный спуск на основе импульса работает следующим образом: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g где - это предыдущее обновление веса, а - текущий градиент относительно параметров , - скорость обучения, а - постоянная величина.mmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + self.momentum * m - lr * g и ускоренный градиентный спуск …

1
Понимание «почти все локальные минимумы имеют значение функции, очень похожее на глобальный оптимум»
В недавнем сообщении в блоге Rong Ge было сказано, что: Считается, что для многих задач, включая изучение глубинных сетей, почти все локальные минимумы имеют очень близкое значение функции к глобальному оптимуму, и, следовательно, нахождение локального минимума достаточно хорошо. Откуда эта вера?

1
Как работает метод стохастического градиентного спуска Адама?
Я знаком с основными алгоритмами градиентного спуска для обучения нейронных сетей. Я прочитал статью с предложением Адама: АДАМ: МЕТОД СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ . Хотя у меня определенно есть некоторые идеи (по крайней мере), статья кажется мне слишком высокой в ​​целом. Например, функция стоимости часто является суммой множества различных функций, поэтому для …

1
Нейронные сети: импульс изменения веса и снижение веса
Momentum используется для уменьшения колебаний веса в последовательных итерациях:αα\alpha Е(ш)шηΔ ωя( t + 1 ) = - η∂Е∂веся+ α Δ ωя( т ) ,Δωя(T+1)знак равно-η∂Е∂веся+αΔωя(T),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), где - функция ошибки, - вектор весов, - скорость обучения.Е( ш )Е(вес)E({\bf w})весвес{\bf w}ηη\eta Снижение веса …

6
Практическая оптимизация гиперпараметров: случайный поиск по сетке
В настоящее время я прохожу случайный поиск по гиперпараметрической оптимизации Bengio и Bergsta [1], где авторы утверждают, что случайный поиск более эффективен, чем поиск по сетке, для достижения примерно одинаковой производительности. Мой вопрос: согласны ли здесь люди с этим утверждением? В своей работе я использовал поиск по сетке в основном …

3
Сравнение SVM и логистической регрессии
Может кто-нибудь подсказать, когда выбрать SVM или LR? Я хочу понять интуицию, лежащую в основе различий между критериями оптимизации изучения гиперплоскости двух, где соответствующие цели заключаются в следующем: SVM: попытаться максимизировать разницу между ближайшими векторами поддержки LR: максимизировать апостериорную вероятность класса Давайте рассмотрим линейное пространство признаков как для SVM, так …

1
Почему glmer не достигает максимальной вероятности (что подтверждается применением дополнительной общей оптимизации)?
Численно получить MLE из GLMM сложно, и на практике, я знаю, мы не должны использовать оптимизацию методом грубой силы (например, используя optimпростой способ). Но для моих собственных образовательных целей я хочу попробовать, чтобы убедиться, что я правильно понимаю модель (см. Код ниже). Я обнаружил, что всегда получаю противоречивые результаты glmer(). …

5
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?
Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.