Вопросы с тегом «optimization»

Используйте этот тег для любого использования оптимизации в статистике.

4
Почему алгоритмы оптимизации определяются с точки зрения других задач оптимизации?
Я занимаюсь некоторыми методами оптимизации машинного обучения, но удивляюсь, обнаружив, что большое количество алгоритмов оптимизации определяется с точки зрения других задач оптимизации. Я проиллюстрирую некоторые примеры в следующем. Например, https://arxiv.org/pdf/1511.05133v1.pdf. Все выглядит красиво и хорошо , но тогда есть это в обновление .... так что алгоритм , который решает для …

2
Являются ли методы машинного обучения «алгоритмами приближения»?
Недавно возник вопрос, похожий на ML, касающийся обмена стека теорий, и я опубликовал ответ, рекомендующий метод Пауэлла, градиентный спуск, генетические алгоритмы или другие «алгоритмы приближения». В комментарии кто-то сказал мне, что эти методы являются «эвристикой», а не «алгоритмами аппроксимации» и часто не приближаются к теоретическому оптимуму (потому что они «часто …

4
Всегда ли есть максимизатор для любой проблемы MLE?
Интересно, всегда ли есть максимизатор для какой-либо задачи оценки максимального (логарифмического) правдоподобия? Другими словами, есть ли какое-то распределение и некоторые его параметры, для которых у проблемы MLE нет максимизатора? Мой вопрос исходит от утверждения инженера о том, что функция стоимости (вероятность или логарифмическая вероятность, я не уверен, что предполагалось) в …

3
Координата против градиентного спуска
Мне было интересно, каковы разные варианты использования для двух алгоритмов, Coordinate Descent и Gradient Descent . Я знаю, что у координатного спуска есть проблемы с негладкими функциями, но он используется в популярных алгоритмах, таких как SVM и LASSO. Однако градиентный спуск, по-моему, используется более широко, особенно при возрождении ANN и …

1
Почему функция стоимости нейронных сетей невыпуклая?
Здесь есть похожая тема ( функция стоимости нейронной сети невыпуклая? ), Но я не смог понять суть вопросов в ответах и ​​мою причину повторного запроса, надеясь, что это прояснит некоторые проблемы: Если я использую функцию суммы квадратов разницы стоимости, я в конечном итоге оптимизирую что-то в форме где - фактическое …

4
Как обеспечить свойства ковариационной матрицы при подборе многомерной нормальной модели с использованием максимального правдоподобия?
Предположим, у меня есть следующая модель Yя= ф( хя, θ ) + εяYязнак равное(Икся,θ)+εяy_i=f(x_i,\theta)+\varepsilon_i где , - вектор объясняющих переменных, - параметры нелинейной функции и , где естественно, матрица.Yя∈ RКYя∈рКy_i\in \mathbb{R}^KИксяИксяx_iθθ\thetaееfεя∼ N( 0 , Σ )εя~N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaК× КК×КK\times K Целью является обычная оценка и . Очевидный выбор - метод максимального …

3
Почему максимальная вероятность, а не ожидаемая вероятность?
Почему так часто получают оценки максимального правдоподобия параметров, но вы практически никогда не слышали об ожидаемых оценках параметров правдоподобия (т. Е. На основе ожидаемого значения, а не режима функции правдоподобия)? Это в первую очередь по историческим причинам или по более предметным техническим или теоретическим причинам? Будут ли существенные преимущества и …

2
Как выбрать между алгоритмами обучения
Мне нужно реализовать программу, которая будет классифицировать записи на 2 категории (истина / ложь) на основе некоторых обучающих данных, и мне было интересно, какой алгоритм / методология мне следует рассмотреть. Кажется, из них есть из чего выбирать - искусственная нейронная сеть, генетический алгоритм, машинное обучение, байесовская оптимизация и т. Д. …

1
Есть ли какое-либо интуитивное объяснение того, почему логистическая регрессия не будет работать в случае идеального разделения? И почему добавление регуляризации это исправит?
У нас много хороших дискуссий по поводу идеального разделения в логистической регрессии. Например, логистическая регрессия в R привела к идеальному разделению (феномен Хаука-Доннера). Что теперь? и модель логистической регрессии не сходится . Лично я все еще чувствую, что это не интуитивно понятно, почему это будет проблемой и почему добавление регуляризации …

7
Почему симметричные матрицы с положительным определением (SPD) так важны?
Я знаю определение симметричной положительно определенной (SPD) матрицы, но хочу понять больше. Почему они так важны, интуитивно понятно? Вот что я знаю. Что еще? Для заданных данных матрица Co-дисперсии является SPD. Ковариационная матрица является важной метрикой, см. Этот превосходный пост для интуитивного объяснения. Квадратичная форма является выпуклой, если SPD. Выпуклость …

2
В нейронных сетях зачем использовать градиентные методы, а не другие метаэвристики?
Почему в обучении глубоких и неглубоких нейронных сетей обычно используются градиентные методы (например, градиентный спуск, Нестеров, Ньютон-Рафсон), а не другие метаэвристики? Под метаэвристикой я подразумеваю такие методы, как имитация отжига, оптимизация колоний муравьев и т. Д., Которые были разработаны, чтобы избежать застревания в локальных минимумах.

2
Какие методы оптимизации лучше всего подходят для LSTM?
Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему? Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, …

3
Когда генетические алгоритмы являются хорошим выбором для оптимизации?
Генетические алгоритмы являются одной из форм метода оптимизации. Часто стохастический градиентный спуск и его производные являются лучшим выбором для оптимизации функций, но генетические алгоритмы все еще иногда используются. Например, антенна космического корабля НАСА ST5 была создана с использованием генетического алгоритма: Когда методы генетической оптимизации являются лучшим выбором, чем более распространенные …

2
Что означает суперскрипт 2, индекс 2 в контексте норм?
Я новичок в оптимизации. Я продолжаю видеть уравнения, которые имеют верхний индекс 2 и нижний индекс 2 в правой части нормы. Например, вот уравнение наименьших квадратов мин| |A x - b | |22||Ax−b||22 ||Ax-b||^2_2 Я думаю, что понимаю верхний индекс 2: это означает возвести в квадрат значение нормы. Но что …

1
Почему использование метода Ньютона для оптимизации логистической регрессии называется итеративным пересчитанным методом наименьших квадратов?
Почему использование метода Ньютона для оптимизации логистической регрессии называется итеративным пересчитанным методом наименьших квадратов? Это кажется мне неясным, потому что логистическая потеря и потеря наименьших квадратов - совершенно разные вещи.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.