Какое значение имеет теорема «Нет бесплатного обеда» для машинного обучения?

Теорема об отсутствии бесплатного обеда (НФЛ) (см. Статью «Коэволюционные бесплатные обеды » Дэвида Х. Вольперта и Уильяма Дж. Макриди)

любые два алгоритма эквивалентны, когда их производительность усредняется по всем возможным проблемам

Действительно ли теорема «Нет бесплатного обеда» верна? Что это на самом деле означает? Хороший пример (в контексте ML), иллюстрирующий это утверждение, был бы хорош.

Я видел некоторые алгоритмы, которые ведут себя очень плохо, и мне трудно поверить, что они действительно следуют вышеуказанной теореме, поэтому я пытаюсь понять, правильна ли моя интерпретация этой теоремы или нет. Или это просто еще одна орнаментальная теорема, подобная теореме Кибенко об универсальном приближении?

— DuttaA
источник

Это действительно распространенная реакция после первого знакомства с теоремами об отсутствии бесплатного обеда (НФЛ). Один для машинного обучения особенно не интуитивен, потому что он бросает вызов всему, что обсуждается в сообществе ML. Тем не менее, теорема верна, но то, что она означает , открыта для некоторых дискуссий.

Чтобы переформулировать теорему для людей, которые ее не знают, теорема НФЛ для машинного обучения действительно является частным случаем теоремы НФЛ для локального поиска и оптимизации . Локальную поисковую версию легче понять. Теорема делает следующее, несколько радикальное утверждение:

Усредненное по всем возможным задачам оптимизации, среднее качество решения, найденное любым выбранным вами алгоритмом локального поиска, точно такое же, как среднее качество решения локального алгоритма «поиска», который просто генерирует возможные решения путем равномерной выборки случайным образом из пространства всех решений.

Другая формулировка, когда люди хотят еще более сильной реакции, состоит в том, чтобы сказать, что если вы хотите найти лучшее решение проблемы, то это так же хорошо, как и то, что делает ваше решение итеративно хуже, так же, как и то, что кажется, делает ваше решение итеративно лучше. В среднем оба этих подхода одинаково хороши.

Хорошо, так почему это правда? Ну, ключ в деталях. Вулперт иногда описывал теорему как специализацию работы Юма по проблеме индукции . Основная постановка проблемы индукции такова: у нас нет логической основы для предположения, что будущее будет таким же, как прошлое. Логично, что нет никаких причин, по которым законы физики не могут все радикально изменить завтра. С чисто логической точки зрения вполне разумно, что будущее может отличаться от прошлого любым количеством способов. Проблема Юма в том , что, в общем будущем это как прошлое в много способов. Он попытался сформулировать философский (логический) аргумент, что это должно быть так, но в основном не получилось.

Теоремы об отсутствии бесплатного обеда говорят о том же. Если вы не знаете, как выглядит ваше пространство поиска, то, если вы итеративно уточняете свое предположение о том, как выглядит хорошее решение, в ответ на сделанные вами в прошлом наблюдения о том, как выглядят хорошие решения (т.е. данные), то такая же вероятность, что выполняемая вами операция помогает, так же, как и то, что она причиняет боль. Вот почему ключевым моментом является «усреднение по всем возможным проблемам оптимизации». Для любой задачи оптимизации, где восхождение на гору является хорошей стратегией после $k$ ходы, мы можем сделать один, который идентичен, за исключением того, что ход восхождения на kth холм приводит к ужасному решению. Фактическое доказательство более тонкое, чем это, но это основная идея.

Очень краткое краткое изложение может быть:

Алгоритм машинного обучения можно заставить работать лучше только над некоторыми видами проблем, если заставить работать хуже над другими проблемами.

Так что это означает в практическом смысле? Это означает, что у вас должна быть какая-то априорная причина думать, что ваш алгоритм будет эффективен в отношении конкретной проблемы. То, как выглядит веская причина, является предметом активных дебатов в сообществе ОД. Это очень тесно связано с компромиссом смещения / дисперсии .

Некоторые общие ответы:

Когда вы смотрите на новую проблему оптимизации, хотя она может иметь любую случайную структуру, проблемы, с которыми мы сталкиваемся в реальном мире, гораздо более регулярны, и присутствуют определенные общие темы, такие как факт перемещения ». uphill "(минимизация ошибок) итеративно приводит к хорошим решениям. По сути, эта школа мысли говорит, что НФЛ - это декоративная теорема: большинство алгоритмов ОД лучше работают над «проблемами, которые мы видим в реальной жизни», хуже работая над «проблемами, которых мы не видим в реальной жизни».
Когда вы смотрите на новую проблему оптимизации в [вставьте ваш любимый домен приложения], хотя она может иметь произвольную структуру, проблемы имеют тенденцию выглядеть как [что вы думаете], что делает [ваш любимый алгоритм] намного более эффективнее, чем случайное угадывание.
Wolpert & McCready сами опубликовали интересный результат, показывающий, что на самом деле существуют специализированные процессы оптимизации, основанные на коэволюции, которые неизменно лучше, чем случайные предположения.

Независимо от того, это бесспорно, что некоторые алгоритмы лучше, чем другие, в некоторых поддоменов (мы можем увидеть это эмпирически). НФЛ говорит нам, что, чтобы быть там лучше, они должны быть хуже где-то еще. Вопрос для обсуждения заключается в том, являются ли «где-то еще» настоящими проблемами или чисто искусственными.

— Джон Дусетт
источник

«Хотя может быть какая-то проблема оптимизации», присутствует? Я предлагаю вам уточнить пункты в разделе «Некоторые общие ответы:».

— nbro

Отличный ответ. Но по алгоритму они включают все варианты этого? Например, backprop может быть реализовано с помощью производных или с помощью небольших различий или с помощью двойных производных (насколько я знаю), поэтому они одинаковы или различны? И по производительности это конечные результаты или ресурсы тоже?

— DuttaA

@nbro: На самом деле я думаю, что это был просто неудачный выбор <и >показать заполнители. Я отключил их, чтобы вы могли видеть ближе к тому, что задумал Джон.

— Нил Слейтер

@NeilSlater Да, спасибо за это!

— Джон Дусетт

@DuttaA Да. Основная идея заключается в том, что независимо от того, какую стратегию вы предлагаете для решения проблемы оптимизации (например, минимизацию ошибок с учетом более высоких производных), я могу создать версию проблемы, которая будет выглядеть точно так же, за исключением того, что после

k

$k$ итерации, вы в конечном итоге в плохом решении.

— Джон Дусетт