В чем разница между поиском и обучением?

9

Я наткнулся на статью «Горькая правда» на канале YouTube « Две минуты газеты ». Рич Саттон говорит ...

Из горького урока следует усвоить одну вещь - огромную мощь методов общего назначения, методов, которые продолжают масштабироваться с увеличением вычислений, даже когда доступные вычисления становятся очень большими. Два метода, которые, кажется, масштабируются произвольно таким образом, - это поиск и обучение .

В чем разница между поиском и обучением здесь? Насколько я понимаю, обучение - это форма поиска, где мы итеративно ищем некоторое представление данных, которое минимизирует функцию потерь в контексте глубокого обучения.

deep-learning philosophy search

— NVI
источник

6

В контексте ИИ:

Поиск относится к общему решению проблем Саймона и Ньюэлла , и это много (много) алгоритмов-потомков. Эти алгоритмы принимают форму:

а. Представлять текущее состояние некоторой части мира в виде вершины графа.

б. Представьте, соединенные с текущим состоянием по краям, все состояния мира, которые могут быть достигнуты из текущего состояния, изменив мир одним действием, и представьте все последующие состояния таким же образом.

с. Алгоритмически находите последовательность действий, которая ведет от текущего состояния к более желаемому целевому состоянию, обходя этот график.

Примером приложения, которое использует поиск, является Google Maps. Другой - Google Полеты.

Обучение относится к любому алгоритму, который уточняет представление о мире через воздействие опыта или на примеры опыта других. Алгоритмы обучения не имеют четкого родителя, так как они были разработаны отдельно во многих различных подполях или дисциплинах. Разумная таксономия - это модель 5 племен . Некоторые алгоритмы обучения фактически используют поиск внутри себя, чтобы выяснить, как изменить свои убеждения в ответ на новый опыт!

Примером алгоритма обучения, используемого сегодня, является Q-learning , которая является частью более общего семейства алгоритмов обучения с подкреплением . Q-learning работает так:

а. Программа обучения (обычно называемая агентом ) получает представление о текущем состоянии мира и список действий, которые она может выбрать для выполнения.

б. Если агент не видел этого состояния мира раньше, он присваивает случайное число вознаграждению, которое он ожидает получить за выполнение каждого действия. Он хранит этот номер как $Q(s,a)$ Угадай качество выполненных действий $a$ в состоянии $s$ ,

с. Агент смотрит на $Q(s,a)$ за каждое действие, которое он может выполнить. Он выбирает лучшее действие с некоторой вероятностью $\epsilon$ и в противном случае действует случайным образом.

д. Действие агента вызывает изменение мира и может привести к тому, что агент получит вознаграждение от среды. Агент отмечает, получил ли он вознаграждение (и сколько это было), и на что похоже новое состояние мира. Затем он корректирует свою веру в качество выполнения действия, которое он выполнял в том состоянии, в котором он находился, таким образом, чтобы его вера в качество этого действия была ближе к реальности вознаграждения, которое он получил, и к качеству того, где оно было выполнено. в итоге.

е. Агент повторяет шаги bd навсегда. Со временем его представления о качестве различных пар «состояние / действие» будут все больше совпадать с реальностью.

Примером приложения, в котором используется обучение, являются рекомендации AI.SE, разработанные программой, которая, вероятно, анализирует отношения между различными комбинациями слов в парах сообщений и вероятность того, что кто-то нажмет на них. Каждый раз, когда кто-то нажимает на них, он узнает что-то о том, является ли перечисление поста связанным, хорошая идея или нет. Лента Facebook - еще один пример из жизни.

— Джон Дусетт
источник

0

Один из способов понять разницу между поиском и обучением состоит в том, что поиск обычно влечет за собой поисковый ключ, и алгоритм ищет структуру, чтобы найти соответствие между ключом и уже существующим элементом. В то время как обучение - это создание структуры в первую очередь. Но поиск и обучение связаны с тем, что при получении входных данных (скажем, от одного или нескольких датчиков) сначала выполняется поиск структуры, чтобы увидеть, существует ли входной сигнал, но если его нет, то текущий входной сигнал (при соблюдении определенных условий) добавляется в структуру, и обучение следует за неудачей поиска.

— Roddus
источник