Вопросы с тегом «optimization»

Используйте этот тег для любого использования оптимизации в статистике.


1
Почему «расслабленное лассо» отличается от стандартного лассо?
Если мы начнем с набора данных , применим к нему Лассо и получим решение , мы можем снова применить Лассо к набору данных , где - это набор ноль индексов , чтобы получить решение, , называемое «расслабленным решением LASSO» (поправьте меня, если я ошибаюсь!). Решение должно удовлетворять условиям Каруша-Куна-Такера (KKT) …

1
Имеет ли логарифмическая вероятность в GLM гарантированную сходимость к глобальным максимумам?
Мои вопросы: Обязательно ли обобщенные линейные модели (GLM) сходятся к глобальному максимуму? Если так, то почему? Кроме того, какие ограничения существуют для функции связи для обеспечения выпуклости? Мое понимание GLM состоит в том, что они максимизируют крайне нелинейную функцию правдоподобия. Таким образом, я бы предположил, что существует несколько локальных максимумов, …

2
Как правильно выбрать алгоритм оптимизации?
Мне нужно найти минимум функции. Читая документы по адресу http://docs.scipy.org/doc/scipy/reference/optimize.html, я вижу, что есть несколько алгоритмов, которые делают одно и то же, то есть находят минимум. Как я узнаю, какой из них выбрать? некоторые из перечисленных алгоритмов Минимизируйте функцию, используя алгоритм симплексного спуска. Минимизируйте функцию, используя алгоритм BFGS. Минимизируйте функцию …

2
Почему максимизация ожидания важна для моделей смесей?
Существует много литературы, в которой подчеркивается, что метод максимизации ожиданий на моделях смесей (смесь гауссовской, скрытой марковской модели и т. Д.). Почему EM важен? EM - это просто способ оптимизации, который широко не используется в качестве метода, основанного на градиенте (метод градиентного приличия или метод Ньютона / квазиньютона) или другого …

1
Как стохастический градиентный спуск может сэкономить время по сравнению со стандартным градиентным спуском?
Стандартный градиентный спуск будет вычислять градиент для всего набора обучающих данных. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заранее определенного числа эпох мы сначала вычисляем вектор градиента weights_grad функции потерь для всего набора данных с нашими параметрами вектора параметров. Stochastic …

1
Разъяснение о реализации правила перцептрона против градиентного спуска против стохастического градиентного спуска
Я немного поэкспериментировал с различными реализациями Perceptron и хочу убедиться, правильно ли я понимаю «итерации». Оригинальное правило персептрона Розенблатта Насколько я понимаю, в классическом алгоритме персептрона Розенблатта веса обновляются одновременно после каждого примера обучения через Δ ш( т + 1 )= Δ ш( т )+ η( Т г ге т …

2
Оценка ARIMA от руки
Я пытаюсь понять, как оцениваются параметры в моделировании ARIMA / Box Jenkins (BJ). К сожалению, ни одна из книг, с которыми я столкнулся, подробно не описывает процедуру оценки, такую ​​как процедура оценки правдоподобия. Я нашел сайт / учебный материал, который был очень полезным. Ниже приведено уравнение из источника, указанного выше. …

1
Как CNN's избегают исчезающей проблемы градиента
Я много читал о сверточных нейронных сетях и удивлялся, как они избегают исчезающей проблемы градиента. Я знаю, что сети глубокого убеждения объединяют одноуровневые автокодеры или другие предварительно обученные мелкие сети и, таким образом, могут избежать этой проблемы, но я не знаю, как этого избежать в CNN. Согласно Википедии : «Несмотря …

1
Почему я не могу сопоставить вывод glmer (family = binomial) с ручной реализацией алгоритма Гаусса-Ньютона?
Я хотел бы сравнить выходные данные lmer (действительно glmer) с примером игрушечного бинома. Я прочитал виньетки и, кажется, понимаю, что происходит. Но, видимо, я не. Застряв, я исправил «правду» в терминах случайных эффектов и пошел оценивать только фиксированные эффекты. Я включаю этот код ниже. Чтобы увидеть, что это законно, вы …

1
Почему один ReLU не может выучить ReLU?
В качестве продолжения Моей нейронной сети не могу даже изучить евклидово расстояние, я упростил еще больше и попытался обучить один ReLU (со случайным весом) одному ReLU. Это самая простая сеть, которая существует, и все же половину времени она не может сходиться. Если исходное предположение имеет ту же ориентацию, что и …

1
Почему важно включить термин коррекции смещения для оптимизатора Adam для Deep Learning?
Я читал об оптимизаторе Адама для глубокого обучения и натолкнулся на следующее предложение в новой книге Бегнио, Гудфеллоу и Кортвилла « Глубокое обучение »: Адам включает поправки смещения к оценкам как моментов первого порядка (члена импульса), так и (нецентрированных) моментов второго порядка, чтобы учесть их инициализацию в начале координат. Кажется, …

3
Разница в использовании нормализованного градиента и градиента
В общих настройках алгоритма градиентного спуска мы имеем где - текущая точка, - размер шага, а - градиент оценивается в . х п η г г д я е н т х п х пИксn + 1= хN- η∗ гр а дя е н тИксNxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * …

1
Почему мы не используем непостоянную скорость обучения для градиента, приличного для вещей, отличных от нейронных сетей?
Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами нейронных сетей. Есть ли причина для этого? Если людям …

1
Ограниченная максимальная вероятность с менее чем полным рангом столбца
Этот вопрос касается оценки ограниченного максимального правдоподобия (REML) в конкретной версии линейной модели, а именно: Y= Х( α ) β+ ϵ ,ε ~ NN( 0 , Σ ( α ) ) ,Yзнак равноИкс(α)β+ε,ε~NN(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), где - ( ) матрица, параметризованная , как …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.