Очень часто утверждается, что минимизация наименьших квадратов остатков предпочтительнее, чем минимизация абсолютных остатков, потому что это вычислительно проще . Но, это может также быть лучше по другим причинам. А именно, если предположения верны (и это не так уж редко), то это обеспечивает решение, которое (в среднем) является более точным.
Максимальная вероятность
Регрессия наименьших квадратов и квантильная регрессия (когда они выполняются путем минимизации абсолютных невязок) могут рассматриваться как максимизация функции правдоподобия для распределенных ошибок Гаусса / Лапласа, и в этом смысле они очень тесно связаны.
Гауссово распределение:
е( х ) = 12 πσ2----√е- ( х - μ )22 σ2
с логарифмической вероятностью, максимизируемой при минимизации суммы квадратов невязок
журналL (x)=- n2журнал( 2 π) - п лог( σ) - 12 σ2Σя = 1N( хя- μ )2сумма квадратов остатков
Распределение Лапласа:
е( х ) = 12 бе- | x - μ |б
с логарифмической вероятностью, максимизируемой при минимизации суммы абсолютных невязок
журналL (x)=-nlog( 2 ) - n log( б ) - 1бΣя = 1N| Икся- μ |сумма абсолютных невязок
Примечание: распределение Лапласа и сумма абсолютных невязок относится к медиане, но его можно обобщить для других квантилей, задав разные веса для отрицательных и положительных невязок.
Распределение известных ошибок
Когда мы знаем распределение ошибок (когда предположения, скорее всего, верны), имеет смысл выбрать связанную функцию вероятности. Минимизация этой функции является более оптимальной.
Очень часто ошибки (приблизительно) нормально распределены. В этом случае использование наименьших квадратов - лучший способ найти параметр (который относится как к среднему, так и к медиане). Это лучший способ, поскольку он имеет наименьшую дисперсию выборки (наименьшую из всех несмещенных оценок). Или вы можете сказать более строго: что он является стохастически доминирующим (см. Иллюстрацию в этом вопросе, сравнивающую распределение медианы выборки и среднего значения выборки).μ
Таким образом, когда ошибки распределены нормально, среднее значение выборки является лучшей оценкой медианы распределения, чем медиана выборки . Регрессия наименьших квадратов является более оптимальной оценкой квантилей. Это лучше, чем использовать наименьшую сумму абсолютных невязок.
Поскольку многие проблемы связаны с нормальными распределенными ошибками, использование метода наименьших квадратов очень популярно. Для работы с другими типами распределений можно использовать Обобщенную линейную модель . И метод итерационных наименьших квадратов, который можно использовать для решения GLM, также работает для распределения Лапласа (т. Е. Для абсолютных отклонений ), что эквивалентно нахождению медианы (или в обобщенной версии других квантилей).
Распределение неизвестных ошибок
прочность
Срединные или другие квантили имеют то преимущество, что они очень устойчивы в отношении типа распределения. Фактические значения не имеют большого значения, а квантили заботятся только о порядке. Поэтому независимо от распределения, минимизация абсолютных невязок (что эквивалентно нахождению квантилей) работает очень хорошо.
Здесь вопрос становится сложным и широким, и это зависит от того, какие знания мы имеем или не имеем о функции распределения. Например, распределение может быть приблизительно нормальным, но только с некоторыми дополнительными выбросами. Это может быть решено путем удаления внешних значений. Это удаление экстремальных значений даже работает при оценке параметра местоположения распределения Коши, где усеченное среднее может быть лучшей оценкой, чем медиана. Таким образом, не только для идеальной ситуации, когда верны предположения, но также и для некоторых менее идеальных приложений (например, дополнительных выбросов), могут быть хорошие надежные методы, которые все еще используют некоторую форму суммы квадратов невязок вместо суммы абсолютных невязок.
Я предполагаю, что регрессия с усеченными невязками может быть в вычислительном отношении гораздо более сложной. Таким образом, это может быть квантильная регрессия, которая является типом регрессии, выполняемой по той причине, что она вычислительно проще (не проще, чем обычные наименьшие квадраты, но проще, чем усеченные наименьшие квадраты).
Предвзятое / несмещенной
Еще одна проблема - предвзятые и объективные оценки. Выше я описал оценку максимального правдоподобия для среднего значения, то есть решение наименьших квадратов, в качестве хорошей или предпочтительной оценки, потому что она часто имеет самую низкую дисперсию из всех несмещенных оценок (когда ошибки распределены нормально). Но смещенные оценки могут быть лучше (более низкая ожидаемая сумма квадратов ошибок).
Это делает вопрос снова широким и сложным. Есть много разных оценщиков и много разных ситуаций для их применения. Использование адаптированной функции суммы квадратов остаточных потерь часто хорошо работает для уменьшения погрешности (например, все виды методов регуляризации), но, возможно, не обязательно будет работать хорошо для всех случаев. Интуитивно понятно, что нет ничего странного в том, что, поскольку функция суммы квадратов невязки часто работает хорошо для всех несмещенных оценок, оптимальные оценки, вероятно, близки к сумме функции потери квадрата невязки.