Если статистика связана с максимизацией вероятности, то машинное обучение - это минимизация потерь. Поскольку вы не знаете потерь, которые вы понесете при получении будущих данных, вы сводите к минимуму приблизительное значение, то есть эмпирические потери.
Например, если у вас есть задача прогнозирования и вы оцениваете количество ошибочных классификаций, вы можете обучить параметры таким образом, чтобы полученная модель вызвала наименьшее количество ошибочных классификаций данных обучения. «Количество ошибочных классификаций» (т. Е. Потеря 0-1) - это сложная функция потерь, с которой невозможно работать, поскольку она не дифференцируется, поэтому вы приближаете ее с помощью плавного «суррогата». Например, потеря журнала - это верхняя граница потери 0-1, так что вы можете минимизировать ее, и это окажется таким же, как максимизация условной вероятности данных. С параметрической моделью этот подход становится эквивалентным логистической регрессии.
В задаче структурированного моделирования с приближением потерь по логарифму к потере 0-1 вы получаете что-то отличное от максимальной условной вероятности, вместо этого вы максимизируете произведение (условной) предельной вероятности.
Чтобы лучше приблизиться к потерям, люди заметили, что модель обучения для минимизации потерь и использования этой потери в качестве оценки будущих потерь является чрезмерно оптимистичной оценкой. Таким образом, для более точной минимизации (истинных будущих потерь) они добавляют термин коррекции смещения к эмпирическим потерям и минимизируют его, это называется минимизацией структурного риска.
На практике вычисление правильного члена коррекции смещения может быть слишком сложным, поэтому вы добавляете выражение «в духе» термина коррекции смещения, например, сумму квадратов параметров. В конце концов, почти все подходы к классификации с параметрическим машинным обучением заканчиваются обучением модели, чтобы минимизировать следующее
∑iL(m(xi,w),yi)+P(w)
где - ваша модель, параметризованная вектором w , i берется по всем точкам данных { x i , y i } , L - некоторая вычислительная аппроксимация вашей истинной потери, а P ( w ) - некоторый член для коррекции / регуляризации смещенияmwi{xi,yi}LP(w)
Например , если ваш , у ∈ { - 1 , 1 } , типичный подход должен был бы позволить м ( х ) = знак ( ш ⋅ х ) , L ( м ( х ) , у ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) и выберите q путем перекрестной проверкиP(w)=q×(w⋅w)q