Вам не нужно . Функция потерь имеет одинаковый минимум, независимо от того, используете ли вы или подавляете его. Однако, если вы включите его, вы получите хорошую интерпретацию минимизации (одной половины) средней ошибки на точку данных. Другими словами, вы минимизируете частоту ошибок вместо общей ошибки.1m
Попробуйте сравнить производительность двух наборов данных разного размера. Необработанная сумма квадратов ошибок не сопоставима напрямую, так как большие наборы данных, как правило, имеют большую общую ошибку только из-за их размера. С другой стороны, средняя ошибка на точку данных равна .
Можете ли вы уточнить немного?
Конечно. Ваш набор данных представляет собой набор точек данных . Если у вас есть модель , ошибка наименьших квадратов в одной точке данных{xi,yi}hh
(h(xi)−yi)2
это, конечно, отличается для каждого datapoint. Теперь, если мы просто суммируем ошибки (и умножим на половину по причине, которую вы описали), мы получим полную ошибку
12∑i(h(xi)−yi)2
но если мы разделим на число слагаемых, мы получим среднюю ошибку на точку данных
12m∑i(h(xi)−yi)2
Преимущество средней ошибки в том , что если у нас есть два набора данных и из differeing размеров , то мы можем сравнивать средние ошибки , но не общее количество ошибок. Например, если второй набор данных, скажем, в десять раз больше первого, то мы ожидаем, что общая ошибка будет примерно в десять раз больше для той же модели. С другой стороны, средняя ошибка делит влияние размера набора данных, и поэтому мы ожидаем, что модели с одинаковой производительностью будут иметь одинаковые средние ошибки на разных наборах данных.{xi,yi}{x′i,y′i}