Какова «фундаментальная» идея машинного обучения для оценки параметров?


19

«Фундаментальная» идея статистики для оценки параметров - это максимальная вероятность . Мне интересно, какова соответствующая идея в машинном обучении.

Qn 1. Было бы справедливо сказать, что «фундаментальная» идея в машинном обучении для оценки параметров: «Функции потери»

[Примечание: у меня сложилось впечатление, что алгоритмы машинного обучения часто оптимизируют функцию потерь, и, следовательно, вышеупомянутый вопрос.]

Qn 2: Есть ли литература, которая пытается преодолеть разрыв между статистикой и машинным обучением?

[Примечание: возможно, путем соотнесения функций потерь с максимальной вероятностью. (например, OLS эквивалентна максимальной вероятности для нормально распределенных ошибок и т. д.)]


3
Я не вижу интереса к этим вопросам о попытках преодоления фиктивного разрыва. Какова цель всего этого? кроме того, есть много других идей, которые являются основополагающими в статистике ... и функции потерь, по крайней мере, 100 лет. Вы можете уменьшить статистику, как это? может быть, ваш вопрос о концепции fondamental в датамининге / статистике / машинном обучении, как бы вы это ни называли ... Тогда вопрос уже существует и слишком широк stats.stackexchange.com/questions/372/… .
Робин Жирар

Ну, я не знаю много о машинном обучении или его связи со статистикой. В любом случае, посмотрите на этот вопрос: stats.stackexchange.com/questions/6/…, который предполагает, что, по крайней мере, подходы к ответу на одни и те же вопросы различны. Неужели «неестественно» задаться вопросом, существует ли какая-то связь между ними? Да, я согласен, что в статистике много идей. Вот почему у меня есть фундаментальные в кавычки и ограничил сферу для оценки параметров, представляющих интерес.

@ Srikant связь между чем? обратите внимание, что мне действительно нравится искать связь между четко определенными объектами, я нахожу это действительно естественным.
Робин Жирар

6
Будучи, пожалуй, учеником машины, я здесь, чтобы сказать вам, что мы максимизируем вероятность из вероятностей. Все время. Множество статей по машинному обучению начинаются с «эй, посмотри на мою вероятность, посмотри, как она учитывает факторы, смотри, как я выхожу». Я предположил бы, что опасно требовать фундаментальной основы любой дисциплины с точки зрения методов вывода. Это больше о том, на какую конференцию вы идете!
Майк Дьюар

6
Я не думаю, что байесовцы согласятся с максимальной вероятностью, являющейся фундаментальной идеей статистики.
Марк Клазен

Ответы:


17

Если статистика связана с максимизацией вероятности, то машинное обучение - это минимизация потерь. Поскольку вы не знаете потерь, которые вы понесете при получении будущих данных, вы сводите к минимуму приблизительное значение, то есть эмпирические потери.

Например, если у вас есть задача прогнозирования и вы оцениваете количество ошибочных классификаций, вы можете обучить параметры таким образом, чтобы полученная модель вызвала наименьшее количество ошибочных классификаций данных обучения. «Количество ошибочных классификаций» (т. Е. Потеря 0-1) - это сложная функция потерь, с которой невозможно работать, поскольку она не дифференцируется, поэтому вы приближаете ее с помощью плавного «суррогата». Например, потеря журнала - это верхняя граница потери 0-1, так что вы можете минимизировать ее, и это окажется таким же, как максимизация условной вероятности данных. С параметрической моделью этот подход становится эквивалентным логистической регрессии.

В задаче структурированного моделирования с приближением потерь по логарифму к потере 0-1 вы получаете что-то отличное от максимальной условной вероятности, вместо этого вы максимизируете произведение (условной) предельной вероятности.

Чтобы лучше приблизиться к потерям, люди заметили, что модель обучения для минимизации потерь и использования этой потери в качестве оценки будущих потерь является чрезмерно оптимистичной оценкой. Таким образом, для более точной минимизации (истинных будущих потерь) они добавляют термин коррекции смещения к эмпирическим потерям и минимизируют его, это называется минимизацией структурного риска.

На практике вычисление правильного члена коррекции смещения может быть слишком сложным, поэтому вы добавляете выражение «в духе» термина коррекции смещения, например, сумму квадратов параметров. В конце концов, почти все подходы к классификации с параметрическим машинным обучением заканчиваются обучением модели, чтобы минимизировать следующее

iL(m(xi,w),yi)+P(w)

где - ваша модель, параметризованная вектором w , i берется по всем точкам данных { x i , y i } , L - некоторая вычислительная аппроксимация вашей истинной потери, а P ( w ) - некоторый член для коррекции / регуляризации смещенияmвесi{xi,yi}LP(w)

Например , если ваш , у { - 1 , 1 } , типичный подход должен был бы позволить м ( х ) = знак ( ш х ) , L ( м ( х ) , у ) = - log ( y × ( x w ) ) , P (x{1,1}dy{1,1}m(x)=sign(wx)L(m(x),y)=log(y×(xw)) и выберите q путем перекрестной проверкиP(w)=q×(ww)q


3
Я бы хотел, чтобы эта потеря сводилась к минимуму при кластеризации, kNN или случайных папоротниках ...

Что ж, для характеристики функции потерь ближайшего соседа k-средних смотрите соответствующий подраздел (2.5) этой статьи: hpl.hp.com/conferences/icml2003/papers/21.pdf
Джон Л. Тейлор,

@John Тем не менее, это смешение целей с причинами. В значительной степени вы можете объяснить каждый алгоритм с точки зрения минимизации чего-либо и назвать это «потерей». kNN не был изобретен таким образом: ребята, я думал о такой потере, давайте оптимизируем ее и посмотрим, что произойдет !; скорее, ребята, допустим, что решение более менее непрерывно в пространстве признаков, чем если бы мы имели хорошую меру сходства ... и так далее.

2
«Если статистика сводится к максимизации вероятности, то машинное обучение - это минимизация потерь». Я не согласен с вашей предпосылкой - решительно и полностью. Может быть, это было правдой статистики в 1920 году, но это, безусловно, не сегодня.
JMS

19

Я дам подробный ответ. Может обеспечить больше ссылок по требованию, хотя это не очень спорным.

  • Статистика не все о максимизации (лог) вероятность. Это анафема для принципиальных байесов, которые просто обновляют свои постеры или распространяют свои убеждения с помощью соответствующей модели.
  • Много статистики является относительно минимизации потерь. И так много машинного обучения. Эмпирическая минимизация потерь имеет другое значение в ОД. Для ясного, повествовательного взгляда, посмотрите Вапник "Природа статистического обучения"
  • Машинное обучение не сводится к минимизации потерь. Во-первых, потому что в ОД много байесов; во-вторых, потому что ряд приложений в ML имеют отношение к временному обучению и приблизительному DP. Конечно, есть объективная функция, но она имеет совсем другое значение, чем в «статистическом» обучении.

Я не думаю, что есть разрыв между полями, просто много разных подходов, все в некоторой степени пересекающихся. Я не чувствую необходимости превращать их в систематические дисциплины с четко определенными различиями и сходствами, и учитывая скорость, с которой они развиваются, я думаю, что это все равно обреченное предприятие.


8

Я не могу опубликовать комментарий (подходящее место для этого комментария), поскольку у меня недостаточно репутации, но ответ, принятый лучшим ответом владельца вопроса, не соответствует сути.

«Если статистика сводится к максимизации вероятности, то машинное обучение - это минимизация потерь».

Вероятность - это функция потерь. Максимизация вероятности - это то же самое, что минимизация функции потерь: отклонение, которое в -2 раза больше логарифмической функции вероятности. Аналогичным образом, решение для наименьших квадратов сводится к минимизации функции потерь, описывающей остаточную сумму квадратов.

И ML, и статистика используют алгоритмы для оптимизации подгонки какой-либо функции (в широком смысле) к данным. Оптимизация обязательно предполагает минимизацию некоторой функции потерь.


1
Хороший вопрос, но все же основные различия еще где-то; во-первых, статистика касается подгонки модели к имеющимся данным, ML - подгонки модели к имеющимся данным; во-вторых, статистика предполагает, что наблюдаемый процесс полностью управляется какой-то смущающей тривиальной «скрытой» моделью, которую они хотят раскопать, в то время как ML пытается создать достаточно сложную, чтобы быть независимой от проблемы модель, действующую как реальность.

@mbq. Это довольно резкая карикатура на статистику. Я работал на пяти университетских факультетах статистики, и я не думаю, что встречал кого-либо, кто мог бы думать о статистике подобным образом.
Роб Хиндман

1
@Rob Карикатура? Я думаю, это то, что делает статистику красивой! Вы принимаете все эти гауссианы и линейность, и это просто работает - и для этого есть причина, которая называется расширением Тейлора. Мир чертовски сложен, но в линейной ок. (что часто составляет девяносто с чем-то% сложности) смущающе тривиально. ОД (и непараметрическая статистика) появляются в этих нескольких процентах ситуаций, когда требуется более тонкий подход. Это просто бесплатный обед - если вы хотите теоремы, вам нужны предположения; если вам не нужны предположения, вам нужны приблизительные методы.

@mbq. Справедливо. Должно быть, я неправильно истолковал ваш комментарий.
Роб Хиндман

4

Есть тривиальный ответ - в машинном обучении нет оценки параметров! Мы не предполагаем, что наши модели эквивалентны некоторым скрытым фоновым моделям; мы рассматриваем и реальность, и модель как черные ящики, и мы пытаемся потрясти коробку модели (обучаемую в официальной терминологии), чтобы ее вывод был аналогичен выводу реальности.

Концепция не только вероятности, но и целого выбора модели на основе данных обучения заменяется оптимизацией точности (независимо от того, что определено; в принципе, добродетель в желаемом использовании) для невидимых данных; это позволяет оптимизировать как точность, так и повторный вызов. Это приводит к концепции способности обобщать, которая достигается различными способами в зависимости от типа учащегося.

Ответ на вопрос два сильно зависит от определений; все же я думаю, что непараметрическая статистика - это то, что связывает их.


Я не уверен, что это совершенно правильно. В каком смысле методы машинного обучения работают без оценки параметров (в рамках параметрического набора или набора моделей без распределения)?
Джон Л. Тейлор

1
Вы оцениваете / рассчитываете что-то (точный термин может отличаться). Например, рассмотрим нейронную сеть. Не рассчитываете ли вы веса для сети, когда пытаетесь что-то предсказать? Кроме того, когда вы говорите, что вы тренируетесь, чтобы сопоставить результаты с реальностью, вы, кажется, неявно говорите о какой-то функции потери.

@John, @Srikant У учащихся есть параметры, но они не являются параметрами в статистическом смысле. Рассмотрим линейную регрессию y = a x (без свободного члена для упрощенного). a является параметром, который подойдет статистическим методам, исходя из предположения, что y = a x. Машинное обучение будет просто пытаться произвести x, когда его спросят о x в пределах диапазона поезда (это имеет смысл, поскольку оно не предполагает y = a x); это может соответствовать сотням параметров, чтобы сделать это.

3
[нужна цитата]. Другими словами, интригующий ответ, хотя он не сочетается (по крайней мере) с большим количеством литературы по ОД.
gappy

1
Классическим является «Статистическое моделирование: две культуры» Бреймана.

2

Я не думаю, что есть фундаментальная идея об оценке параметров в машинном обучении. Толпа ML будет счастливо максимизировать вероятность или апостериор, пока алгоритмы эффективны и предсказывают «точно». Основное внимание уделяется вычислениям, а результаты статистики широко используются.

Если вы ищете фундаментальные идеи в целом, то в теории вычислительного обучения PAC занимает центральное место; в статистической теории обучения минимизация структурных рисков ; и есть другие области (например, см. статью « Прогнозирование науки » Джона Лэнгфорда).

При соединении статистики / ML разрыв кажется чрезмерным. Мне понравился ответ Гэппи на вопрос "Две культуры".


Статистическая толпа случайно

1

Вы можете переписать проблему максимизации правдоподобия как проблему минимизации потерь, определив потерю как отрицательную логарифмическую вероятность. Если вероятность является произведением независимых вероятностей или плотностей вероятностей, потеря будет суммой независимых членов, которые могут быть эффективно рассчитаны. Кроме того, если стохастические переменные нормально распределены, соответствующая проблема минимизации потерь будет проблемой наименьших квадратов.

Если возможно создать проблему минимизации потерь, переписав максимизацию вероятности, следует предпочесть создание проблемы минимизации потерь с нуля, поскольку это приведет к проблеме минимизации потерь, которая (надеюсь) более теоретически обоснованный и менее специальный. Например, веса, такие как взвешенные наименьшие квадраты, для которых вы обычно должны угадывать значения, будут просто возникать в процессе переписывания исходной задачи максимизации правдоподобия и уже будут иметь (надеюсь) оптимальные значения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.