Статистика и большие данные optimization

1

Почему на практике не используется алгоритм спуска «без седловых ньютонов»?

Недавно я прочитал статью Yann Dauphin et al. Выявление и устранение проблемы седловой точки в многомерной невыпуклой оптимизации , где они вводят интересный алгоритм спуска, называемый Ньютоном без седла , который, похоже, специально предназначен для оптимизации нейронной сети и не должен страдать от застревания в седловых точках. как методы первого …

13 optimization deep-learning gradient-descent

2

Полезно ли глубокое обучение для комбинаторной оптимизации?

Существуют ли исследовательские группы, работающие над использованием глубокого обучения для задач комбинаторной оптимизации?

13 optimization deep-learning

3

Может кто-нибудь объяснить, пожалуйста, алгоритм обратного распространения? [Дубликат]

На этот вопрос уже есть ответы здесь : Алгоритм обратного распространения (2 ответа) Закрыто 3 месяца назад . Что такое алгоритм обратного распространения и как он работает?

13 algorithms optimization neural-networks

1

Настройка гиперпараметра в регрессии Гаусса

Я пытаюсь настроить гиперпараметры алгоритма гауссовой регрессии, который я реализовал. Я просто хочу максимизировать предельное правдоподобие, определяемое формулой где K - ковариационная матрица с элементы K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^ …

13 regression optimization gaussian-process hyperparameter

3

Является ли оптимизация PCA выпуклой?

Целевой функцией анализа главных компонентов (PCA) является минимизация ошибки восстановления в норме L2 (см. Раздел 2.12 здесь . Другое представление пытается максимизировать дисперсию проекции. У нас также есть отличная статья здесь: Какова целевая функция PCA ? ) Мой вопрос заключается в том, что оптимизация PCA выпуклая? (Я нашел некоторые обсуждения …

12 machine-learning pca optimization convex

2

Как решить наименьшее абсолютное отклонение симплекс-методом?

Вот проблема наименьшего абсолютного отклонения в данной области:, Я знаю, что это может быть перестроено как проблема LP следующим образом:argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n Но я понятия не имею, чтобы решить это шаг за шагом, …

12 regression optimization quantile-regression linear-programming least-absolute-deviations

1

Оптимизатор lme4 по умолчанию требует много итераций для многомерных данных

TL; DR: lme4оптимизация кажется линейной по количеству параметров модели по умолчанию и намного медленнее, чем эквивалентная glmмодель с фиктивными переменными для групп. Что я могу сделать, чтобы ускорить это? Я пытаюсь соответствовать довольно большой иерархической модели логита (~ 50 тыс. Строк, 100 столбцов, 50 групп). Подгонка нормальной модели логита к …

12 r mixed-model optimization lme4-nlme numerics

1

Что означает «вариационный»?

Всегда ли использование «вариационного» относится к оптимизации через вариационный вывод? Примеры: «Вариационный автокодер» «Вариационные байесовские методы» "Вариационная перенормировочная группа"

12 machine-learning optimization inference

1

RMSProp и Адам против SGD

Я выполняю эксперименты на валидации EMNIST, используя сети с RMSProp, Adam и SGD. Я достиг 87% точности с SGD (скорость обучения 0,1) и отсева (0,1 отсева), а также регуляризация L2 (1e-05 штраф). При тестировании точно такой же конфигурации с RMSProp и Adam, а также с начальной скоростью обучения 0,001 я …

12 machine-learning optimization sgd adam

2

Что такое ограничение maxnorm? Как это полезно в сверточных нейронных сетях?

Вот пример кода keras, который использует его: from keras.constraints import max_norm model.add(Convolution2D(32, 3, 3, input_shape=(3, 32, 32), border_mode='same', activation='relu', kernel_constraint=max_norm(3)))

12 neural-networks regularization conv-neural-network optimization

2

Использовать коэффициент корреляции Пирсона в качестве цели оптимизации в машинном обучении

В машинном обучении (для проблем регрессии) я часто вижу среднеквадратическую ошибку (MSE) или среднюю абсолютную ошибку (MAE), используемую в качестве функции ошибки для минимизации (плюс термин регуляризации). Мне интересно, есть ли ситуации, когда использование коэффициента корреляции было бы более уместным? если такая ситуация существует, то: В каких ситуациях коэффициент корреляции …

12 regression machine-learning svm optimization deep-learning

1

Какая связь между регуляризацией и методом множителей Лагранжа?

Чтобы не допустить перегрузки людей, люди добавляют термин регуляризации (пропорциональный квадрату суммы параметров модели) с параметром регуляризации к функции стоимости линейной регрессии. Является ли этот параметр таким же, как множитель Лагранжа? Так регуляризация такая же, как метод множителя Лагранжа? Или как эти методы связаны? λλλ\lambdaλλ\lambda

12 regression optimization regularization

1

Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

Оптимизация машины опорных векторов с помощью квадратичного программирования

Я пытаюсь понять процесс обучения линейной поддержки векторной машины . Я понимаю, что свойства SMV позволяют оптимизировать их гораздо быстрее, чем с помощью решателя квадратичного программирования, но в целях обучения я хотел бы посмотреть, как это работает. Учебные данные set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df …

12 r svm optimization

2

Параметры максимального правдоподобия отклоняются от апостериорных распределений

У меня есть функция правдоподобия Л (д| θ)L(d|θ)\mathcal{L}(d | \theta) для вероятности моих данных учетом некоторых параметров модели , которые я хотел бы оценить. Принимая плоские априорные значения параметров, вероятность пропорциональна апостериорной вероятности. Я использую метод MCMC для выборки этой вероятности.dddθ ∈ RNθ∈рN\theta \in \mathbf{R}^N Глядя на полученную сходящуюся цепочку, …

11 bayesian maximum-likelihood optimization inference mcmc

Вопросы с тегом «optimization»