Это действительно распространенная реакция после первого знакомства с теоремами об отсутствии бесплатного обеда (НФЛ). Один для машинного обучения особенно не интуитивен, потому что он бросает вызов всему, что обсуждается в сообществе ML. Тем не менее, теорема верна, но то, что она означает , открыта для некоторых дискуссий.
Чтобы переформулировать теорему для людей, которые ее не знают, теорема НФЛ для машинного обучения действительно является частным случаем теоремы НФЛ для локального поиска и оптимизации . Локальную поисковую версию легче понять. Теорема делает следующее, несколько радикальное утверждение:
Усредненное по всем возможным задачам оптимизации, среднее качество решения, найденное любым выбранным вами алгоритмом локального поиска, точно такое же, как среднее качество решения локального алгоритма «поиска», который просто генерирует возможные решения путем равномерной выборки случайным образом из пространства всех решений.
Другая формулировка, когда люди хотят еще более сильной реакции, состоит в том, чтобы сказать, что если вы хотите найти лучшее решение проблемы, то это так же хорошо, как и то, что делает ваше решение итеративно хуже, так же, как и то, что кажется, делает ваше решение итеративно лучше. В среднем оба этих подхода одинаково хороши.
Хорошо, так почему это правда? Ну, ключ в деталях. Вулперт иногда описывал теорему как специализацию работы Юма по проблеме индукции . Основная постановка проблемы индукции такова: у нас нет логической основы для предположения, что будущее будет таким же, как прошлое. Логично, что нет никаких причин, по которым законы физики не могут все радикально изменить завтра. С чисто логической точки зрения вполне разумно, что будущее может отличаться от прошлого любым количеством способов. Проблема Юма в том , что, в общем будущем это как прошлое в много способов. Он попытался сформулировать философский (логический) аргумент, что это должно быть так, но в основном не получилось.
Теоремы об отсутствии бесплатного обеда говорят о том же. Если вы не знаете, как выглядит ваше пространство поиска, то, если вы итеративно уточняете свое предположение о том, как выглядит хорошее решение, в ответ на сделанные вами в прошлом наблюдения о том, как выглядят хорошие решения (т.е. данные), то такая же вероятность, что выполняемая вами операция помогает, так же, как и то, что она причиняет боль. Вот почему ключевым моментом является «усреднение по всем возможным проблемам оптимизации». Для любой задачи оптимизации, где восхождение на гору является хорошей стратегией послеКходы, мы можем сделать один, который идентичен, за исключением того, что ход восхождения на kth холм приводит к ужасному решению. Фактическое доказательство более тонкое, чем это, но это основная идея.
Очень краткое краткое изложение может быть:
Алгоритм машинного обучения можно заставить работать лучше только над некоторыми видами проблем, если заставить работать хуже над другими проблемами.
Так что это означает в практическом смысле? Это означает, что у вас должна быть какая-то априорная причина думать, что ваш алгоритм будет эффективен в отношении конкретной проблемы. То, как выглядит веская причина, является предметом активных дебатов в сообществе ОД. Это очень тесно связано с компромиссом смещения / дисперсии .
Некоторые общие ответы:
- Когда вы смотрите на новую проблему оптимизации, хотя она может иметь любую случайную структуру, проблемы, с которыми мы сталкиваемся в реальном мире, гораздо более регулярны, и присутствуют определенные общие темы, такие как факт перемещения ». uphill "(минимизация ошибок) итеративно приводит к хорошим решениям. По сути, эта школа мысли говорит, что НФЛ - это декоративная теорема: большинство алгоритмов ОД лучше работают над «проблемами, которые мы видим в реальной жизни», хуже работая над «проблемами, которых мы не видим в реальной жизни».
- Когда вы смотрите на новую проблему оптимизации в [вставьте ваш любимый домен приложения], хотя она может иметь произвольную структуру, проблемы имеют тенденцию выглядеть как [что вы думаете], что делает [ваш любимый алгоритм] намного более эффективнее, чем случайное угадывание.
- Wolpert & McCready сами опубликовали интересный результат, показывающий, что на самом деле существуют специализированные процессы оптимизации, основанные на коэволюции, которые неизменно лучше, чем случайные предположения.
Независимо от того, это бесспорно, что некоторые алгоритмы лучше, чем другие, в некоторых поддоменов (мы можем увидеть это эмпирически). НФЛ говорит нам, что, чтобы быть там лучше, они должны быть хуже где-то еще. Вопрос для обсуждения заключается в том, являются ли «где-то еще» настоящими проблемами или чисто искусственными.