Вопросы с тегом «optimization»

В статистике это относится к выбору оценщика параметра путем максимизации или минимизации некоторой функции данных. Одним из очень распространенных примеров является выбор оценщика, который максимизирует совместную плотность (или функцию масс) наблюдаемых данных, называемую оценкой максимального правдоподобия (MLE).

8
Выбор скорости обучения
В настоящее время я работаю над внедрением Stochastic Gradient Descent, SGDдля нейронных сетей, использующих обратное распространение, и, хотя я понимаю его назначение, у меня есть несколько вопросов о том, как выбрать значения для скорости обучения. Связана ли скорость обучения с формой градиента ошибки, так как он определяет скорость снижения? Если …

4
Следует ли переподготовить модель, если появятся новые наблюдения?
Итак, я не смог найти никакой литературы по этому вопросу, но мне кажется, что стоит подумать: Каковы лучшие практики в обучении и оптимизации моделей, если доступны новые наблюдения? Есть ли способ определить период / частоту переобучения модели до того, как прогнозы начнут ухудшаться? Является ли это чрезмерным, если параметры повторно …

1
Существуют ли правила выбора размера мини-партии?
При обучении нейронных сетей одним гиперпараметром является размер мини-пакета. Обычный выбор - 32, 64 и 128 элементов в каждой партии. Существуют ли какие-либо правила / рекомендации, какими большими должны быть мини-партии? Какие-нибудь публикации, которые исследуют влияние на обучение?

4
Всегда ли градиентный спуск сходится к оптимальному?
Мне интересно, есть ли сценарий, при котором градиентный спуск не сходится к минимуму. Я осознаю, что градиентный спуск не всегда может привести к глобальному оптимуму. Я также знаю, что он может отличаться от оптимального, если, скажем, размер шага слишком велик. Тем не менее, мне кажется, что если он отклоняется от …

3
Руководство по выбору оптимизатора для обучения нейронных сетей
Я использую нейронные сети уже некоторое время. Тем не менее, одна вещь, с которой я постоянно борюсь, это выбор оптимизатора для обучения сети (используя backprop). Что я обычно делаю, так это просто начинаю с одного (например, стандартного SGD), а затем пробую другие другие довольно случайно. Мне было интересно, есть ли …

2
локальные минимумы против седловых точек в глубоком обучении
Я слышал, как Эндрю Нг (в видео, которое я, к сожалению, больше не могу найти) рассказывал о том, как изменилось понимание локальных минимумов в задачах глубокого обучения в том смысле, что они теперь рассматриваются как менее проблемные, поскольку в многомерных пространствах (встречающихся в глубокое обучение) критические точки, скорее всего, будут …

2
Почему генетические алгоритмы не используются для оптимизации нейронных сетей?
Насколько я понимаю, генетические алгоритмы являются мощными инструментами для многоцелевой оптимизации. Кроме того, обучение нейронных сетей (особенно глубоких) является сложным и имеет много проблем (невыпуклые функции стоимости - локальные минимумы, исчезающие и взрывные градиенты и т. Д.). Также я считаю, что концептуально обучение NN с GA возможно. Мне было интересно, …


1
Сколько функций для выборки с использованием случайных лесов
На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно, подтверждается эмпирическими данными, но есть ли другие причины, по которым можно было бы выбрать квадратный …

2
Почему бы не всегда использовать технику оптимизации ADAM?
Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей. Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы импульса?

1
Fisher Scoring v / s Координатный спуск для MLE в R
Базовая функция R glm()использует баллы Фишера для MLE, в то время как, по- glmnetвидимому, используется метод спуска координат для решения того же уравнения. Спуск по координатам более эффективен по времени, чем оценка Фишера, так как оценка Фишера вычисляет производную матрицу второго порядка в дополнение к некоторым другим матричным операциям. что …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
Почему скорость обучения приводит к стремительному росту веса моей нейронной сети?
Я использую tenorflow для написания простых нейронных сетей для небольшого количества исследований, и у меня было много проблем с весами 'nan' во время обучения. Я пробовал много разных решений, таких как смена оптимизатора, изменение потерь, размера данных и т. Д., Но безрезультатно. Наконец, я заметил, что изменение в скорости обучения …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.