На мой взгляд, статистика / машинное обучение говорит вам, что вы должны оптимизировать, а оптимизация - это то, как вы на самом деле это делаете.
Например, рассмотрим линейную регрессию с где и . Статистика говорит нам, что это (часто) хорошая модель, но мы находим нашу фактическую оценку , решая задачу оптимизацииЕ ( ε ) = 0 В г ( ε ) = σ 2 I βY= Хβ+ εЕ( ε ) = 0Вa r ( ε ) = σ2яβ^
β^= аргминb ∈ Rп| | Y- Хб | |2,
Свойства известны нам по статистике, поэтому мы знаем, что это хорошая проблема для оптимизации. В этом случае это простая оптимизация, но это все еще показывает общий принцип.β^
В целом, большая часть машинного обучения может рассматриваться как решение
где я пишу это без регуляризации, но это может быть легко добавлено.
е^= аргмине∈ F1NΣя = 1NL ( уя, ф( хя) )
Огромное количество исследований в области теории статистического обучения (SLT) изучало свойства этих аргументов, независимо от того, являются ли они асимптотически оптимальными, как они связаны со сложностью и многими другими подобными вещами. Но когда вы действительно хотите получить , часто вы сталкиваетесь с трудной оптимизацией, и это целая группа людей, которые изучают эту проблему. Я думаю, что история SVM является хорошим примером здесь. У нас есть такие люди из SLT, как Vapnik и Cortes (и многие другие), которые показали, что SVM - это хорошая проблема оптимизации, которую нужно решить. Но тогда это были другие, такие как Джон Платт и авторы LIBSVM, которые сделали это возможным на практике.Fе^
Чтобы ответить на ваш точный вопрос, знание некоторой оптимизации, безусловно, полезно, но, как правило, никто не является экспертом во всех этих областях, поэтому вы узнаете столько, сколько сможете, но некоторые аспекты всегда будут для вас чем-то вроде черного ящика. Возможно, вы должным образом не изучили результаты SLT за вашим любимым алгоритмом ML, или, возможно, вы не знаете внутреннюю работу оптимизатора, который вы используете. Это путешествие на всю жизнь.