Функция стоимости в линейной регрессии МНК


32

Меня немного смущает лекция Эндрю Нга о линейной регрессии, посвященная машинному обучению. Там он дал функцию стоимости, которая минимизирует сумму квадратов как:

12mi=1m(hθ(X(i))Y(i))2

Я понимаю, откуда берется . Я думаю, что он сделал это так, чтобы, когда он выполнил производную на квадратном члене, 2 в квадратном члене отменил бы с половиной. Но я не понимаю, откуда взялись .121m

Зачем нам нужно делать ? В стандартной линейной регрессии ее нет, мы просто минимизируем невязки. Зачем нам это здесь?1m


1 / 2m помогает найти среднюю ошибку на точку данных, а m представляет общее количество наблюдений или количество наблюдений.
Кришнан

Ответы:


33

Как вы, похоже, понимаете, нам, безусловно, не нужен коэффициент для получения линейной регрессии. Минимизаторы, конечно, будут точно такими же, с ним или без него. Типичная причина нормализации по заключается в том, что мы можем рассматривать функцию стоимости как приближение к «ошибке обобщения», которая представляет собой ожидаемую квадратичную потерю в случайно выбранном новом примере (не в обучающем наборе):1/mm

Предположим, что взяты из некоторых распределение. Тогда для больших мы ожидаем, что (X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

Точнее, по строгому закону больших чисел у нас есть с вероятностью 1.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

Примечание. Каждое из приведенных выше утверждений относится к какому-либо конкретному , выбранному без рассмотрения учебного набора. Для машинного обучения мы хотим, чтобы эти операторы сохранялись для некоторых выбранных на основе их хороших характеристик на обучающем наборе. Эти утверждения все еще могут сохраняться в этом случае, хотя нам нужно сделать некоторые предположения относительно набора функций , и нам нужно что-то более сильное, чем Закон больших чисел. θθ^{hθ|θΘ}


1
@StudentT Это, вероятно, лучшая причина для использования средней ошибки по общему количеству. Мое объяснение на самом деле является лишь следствием более глубокой причины DavidR.
Мэтью Друри

29

Вам не нужно . Функция потерь имеет одинаковый минимум, независимо от того, используете ли вы или подавляете его. Однако, если вы включите его, вы получите хорошую интерпретацию минимизации (одной половины) средней ошибки на точку данных. Другими словами, вы минимизируете частоту ошибок вместо общей ошибки.1m

Попробуйте сравнить производительность двух наборов данных разного размера. Необработанная сумма квадратов ошибок не сопоставима напрямую, так как большие наборы данных, как правило, имеют большую общую ошибку только из-за их размера. С другой стороны, средняя ошибка на точку данных равна .

Можете ли вы уточнить немного?

Конечно. Ваш набор данных представляет собой набор точек данных . Если у вас есть модель , ошибка наименьших квадратов в одной точке данных{xi,yi}hh

(h(xi)yi)2

это, конечно, отличается для каждого datapoint. Теперь, если мы просто суммируем ошибки (и умножим на половину по причине, которую вы описали), мы получим полную ошибку

12i(h(xi)yi)2

но если мы разделим на число слагаемых, мы получим среднюю ошибку на точку данных

12mi(h(xi)yi)2

Преимущество средней ошибки в том , что если у нас есть два набора данных и из differeing размеров , то мы можем сравнивать средние ошибки , но не общее количество ошибок. Например, если второй набор данных, скажем, в десять раз больше первого, то мы ожидаем, что общая ошибка будет примерно в десять раз больше для той же модели. С другой стороны, средняя ошибка делит влияние размера набора данных, и поэтому мы ожидаем, что модели с одинаковой производительностью будут иметь одинаковые средние ошибки на разных наборах данных.{xi,yi}{xi,yi}


1
Я могу отчасти следовать за вами, можете ли вы уточнить немного? Извините, я новичок в машинном обучении!
SmallChess

@StudentT Я попытался уточнить в своем ответе.
Мэтью Друри

1
То же самое относится и к случаям, когда вы экспериментируете с размером мини-пакета при выполнении стохастического градиентного спуска, который является наиболее распространенным типом линейного градиентного спуска при работе с большими наборами данных: вы можете легче сравнить ошибку.
jasonszhao
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.