Регрессия L1 оценивает медиану, тогда как регрессия L2 означает?


24

Поэтому мне был задан вопрос, по каким оценкам центральные меры L1 (т.е. лассо) и L2 (т.е. регрессия гребня). Ответ L1 = медиана и L2 = среднее. Есть ли интуитивные рассуждения об этом? Или это должно быть определено алгебраически? Если да, то как мне это сделать?


4
Под L1 / L2 вы ссылаетесь на целевую функцию или ограничения? Если целевая функция, то да L1 ошибка минимизируется с помощью условного медианы, а L2 - условного среднего. Если ограничения (на что ссылаются ридж / лассо), то это неправильный способ думать об этом. Их «центральные меры» все еще нацелены на условное среднее, но с различными штрафами на β .
Муратоа

Ответы:


24

Существует простое геометрическое объяснение того, почему функция потерь L1 дает медиану.

Напомним, что мы работаем в одном измерении, поэтому представьте, что числовая линия распространяется горизонтально. Нанесите на карту каждую из точек данных на числовой линии. Положите палец где-нибудь на линии; ваш палец будет вашей текущей оценкой кандидата.

Предположим, вы немного сместили палец вправо, скажем, на единиц вправо. Что происходит с полной потерей? Хорошо, если ваш палец находился между двумя точками данных, и вы перемещаете его через точку данных, вы увеличили общую потерю на δ для каждой точки данных слева от вашего пальца и уменьшили ее на δ для каждой точки данных до правый палец. Таким образом, если справа от вашего пальца больше точек данных, чем слева, перемещение пальца вправо уменьшает общую потерю. Другими словами, если более половины точек данных находятся справа от вашего пальца, вам следует переместить палец вправо.δδδ

Это приводит к тому, что вы перемещаете палец к точке, где половина точек данных находится на этой точке, а половина - справа. Это место медиана.

Это L1 и медиана. К сожалению, у меня нет аналогичного объяснения «все интуиция, без алгебры» для L2 и среднего значения.


7
Если мы говорим о простой точечной оценке, то это прямое исчисление. ddβ1NΣязнак равно1N(Yя-β)2знак равно-21NΣязнак равно1N(Yя-β)знак равно0βзнак равно1NΣяYя
Муратоа

3
@muratoa, да, я знаю вывод исчисления, но вопрос требует специально объяснения, которое фокусируется на интуиции и избегает алгебры. Я предположил бы, что спрашивающий уже знает вывод исчисления, но ищет что-то, что обеспечивает больше интуиции.
DW

Я думал, что ОП упомянул регрессию, которая предполагает, что он говорит об оценке y с учетом x, который является условным средним с использованием наименьших квадратов и условной медианой для средней абсолютной ошибки. Те же объяснения должны работать, но проблема немного в другом. Исчисление объяснения среднего значения довольно ясно и просто. Возможно, объяснение среднего значения может быть дано аналогично DW для медианы. Среднее значение выборки представляет собой объективную оценку среднего значения для населения.
Майкл Р. Черник

По мере удаления оценки от выборки среднеквадратичная ошибка изменяется из-за увеличения смещения. Среднеквадратичная ошибка фактически увеличивается на d 2, когда оценка добавляет d к среднему значению выборки в качестве оценки кандидата. 2
Майкл Р. Черник

11
Быстрый и грязный вариант алгебры, заданной muratoa, существует для случая L1. Заметим, что за исключением случаев, когда , производная от | y i - β | где β - - s g n ( y i - β ) , то есть - 1, если β < y i, и + 1, если β > y i . Так дβзнак равноYя|Yя-β|βsgn(yiβ)1β<yi+1β>yi , за исключением случаев, когда β является y i . Производная исчезает, когда среди y i - β имеется одинаковое количество положительных и отрицательных членов, что грубо говоря возникает, когда β является медианой y i . ddβ1NΣя|Yя-β|знак равно-1NΣяsгN(Yя-β)βYяYя-ββYя
Ив

17

Это объяснение является суммой комментариев Муратоа и Ива к ответу Д.В. Хотя он основан на исчислении, я нашел его простым и понятным.

Предполагая , что мы и хотеть получить новую оценку β на их основе. Наименьшая потеря получается, когда мы находим β, который делает производную потери равной нулю.Y1,Y2,,,,YКββ

Потеря L1

L1

L1знак равно1КΣязнак равно1К|Yя-β|
секгп(уя-β)равен 1когдауя>β, -1когдауя<β. Производная равна 0, если средиyi-βодинаковое количество положительных и отрицательных членов, что означает, чтоβдолжно быть медианойyi.
L1βзнак равно-1КΣязнак равно1КsгN(Yя-β)
sгN(Yя-β)Yя>βYя<βYя-ββYя

L2 потеря

L2знак равно1КΣязнак равно1К(Yя-β)2
L2βзнак равно-2КΣязнак равно1К(Yя-β)
L2βзнак равно0βзнак равно1КΣязнак равно1КYя

βYя

3

Добавьте к ответу DW еще более практичный пример (также для функции потерь L2):

Представьте себе небольшую деревню из 4 домов, расположенных близко друг к другу (например, 10 метров). В 1 километре от них у вас есть еще один очень изолированный дом. Теперь вы приехали в этот город и хотите где-нибудь построить свой собственный дом. Вы хотите жить рядом с другими домами и дружить со всеми. Рассмотрим эти два альтернативных сценария:

  1. Вы решаете оказаться в том месте, где среднее расстояние до любого дома является наименьшим (т.е. минимизируется функция потерь L1).

    • Если вы разместите свой дом в центре деревни, вы будете в 10 метрах от 4 домов и в 1 км от одного дома, что дает вам среднее расстояние около 200 метров (10 + 10 + 10 + 10 + 1000). / 5).
    • Если вы разместите свой дом в 500 метрах от деревни, вы будете в 500 метрах от 5 домов, что в среднем составляет 500 метров.
    • Если вы разместите свой дом рядом с изолированным домом, вы будете в 1 км от деревни (4 дома) и примерно в 10 метрах от 1 дома, что дает вам среднее расстояние около 800 метров.

    Таким образом, наименьшее среднее расстояние в 100 метров достигается при строительстве вашего дома в деревне. В частности, вы построите свой дом в середине этих 4 домов, чтобы получить еще несколько метров среднего расстояния. И оказывается, что эта точка является « срединной точкой », которую вы бы получили аналогичным образом, используя формулу медианы.

  2. Вы решаете принять демократический подход. Вы спрашиваете каждого из пяти своих будущих соседей, какое место они предпочитают для вашего нового дома. Они все любят вас и хотят, чтобы вы жили рядом с ними. Таким образом, все они заявляют, что их предпочтительное местоположение должно быть местом рядом с их собственным домом. Вы берете среднее значение всех голосовавших ваших пяти соседей, и в результате получается «200 метров от деревни» (среднее количество голосов: 0 + 0 + 0 + 0 + 1000/5 = 200), то есть « средняя точка » из 5 домов, которую вы бы получили аналогичным образом, используя формулу среднего значения. И это местоположение оказывается точно таким же, что имитирует сумму квадратов расстояний (то есть функцию потерь L2). Давайте просто посчитаем, чтобы это увидеть:
    • В этом месте сумма квадратов расстояний: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Если мы построим дом в центре села, наша сумма квадратов расстояний будет: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Если мы построим дом в 100 метрах от деревни (как в 1), сумма квадратов расстояний составит: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Если мы построим дом в 100 метрах от изолированного дома, сумма квадратов расстояний составит: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Так что да, интересно отметить, что, немного нелогично, когда мы минимизируем сумму расстояний, мы не оказываемся в «середине» в смысле среднего значения, но в смысле медиана. Это одна из причин, почему OLS, одна из самых популярных регрессионных моделей, использует квадратные ошибки, а не абсолютные ошибки.


1

В дополнение к уже опубликованным ответам (которые были очень полезны для меня!), Существует геометрическое объяснение связи между нормой L2 и средним значением.

Чтобы использовать те же обозначения, что и chefwen , формула для потери L2:

L2знак равно1КΣязнак равно1К(Yя-β)2

Мы хотим найти значение β который сводит к минимуму L2, Обратите внимание, что это эквивалентно минимизации следующего, так как умножение наК и принимая квадратный корень, оба сохраняют порядок:

Σязнак равно1К(Yя-β)2

Если вы считаете вектор данных Y как точка в К-мерное пространство, эта формула рассчитывает евклидово расстояние между точкой Y и точка βзнак равно(β,β,,,,,β),

Таким образом, проблема заключается в том, чтобы найти значение β что сводит к минимуму евклидово расстояние между точками Y а также β, Поскольку возможные значенияβ все лежат на линии, параллельной 1знак равно(1,1,,,,,1) по определению это эквивалентно нахождению векторной проекции Y на 1,

Это действительно возможно визуализировать, только когда Кзнак равно2, но вот пример, где Yзнак равно(2,6), Как показано, проецируя на1 доходность (4,4) как мы ожидаем.

вектор у проецируется на бета

Чтобы показать, что эта проекция всегда дает среднее значение (в том числе, когда К>2), мы можем применить формулу для проекции :

βзнак равнопроектируемый1Yзнак равноY1|1|21βзнак равноΣязнак равно1КYяК
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.