Что мотивирует машину?


12

В настоящее время в области разработки ИИ основное внимание, похоже, уделяется распознаванию образов и машинному обучению. Обучение о настройке внутренних переменных на основе обратной связи.

Иерархия потребностей Маслоу - это теория психологии, предложенная Авраамом Маслоу, которая утверждает, что самые основные потребности людей должны быть удовлетворены, прежде чем они станут мотивированными для удовлетворения потребностей более высокого уровня.

Что может мотивировать машину к действию? Должна ли машина иметь какую-то ДНК-подобную структуру, которая описывала бы ее иерархию потребностей (аналогично теории Маслоу)? Каковы могут быть основные потребности машины?


1
Интересный вопрос, и добро пожаловать в AI! (У меня есть несколько мыслей по этому вопросу, связанных с теорией игр, и другие участники говорили о целенаправленном обучении в отношении алгоритмов.)
DukeZhou

1
Проще говоря, это была бы функция полезности . Этот ответ может помочь
Ugnes

Ответы:


5

Текущий метод реализации мотивации - это своего рода искусственное вознаграждение. DQN Deepmind, например, определяется счетом игры. Чем выше оценка, тем лучше. ИИ учится корректировать свои действия, чтобы получить как можно больше очков и, следовательно, наибольшее вознаграждение. Это называется усилением обучения . Награда мотивирует ИИ адаптировать свои действия, так сказать.

В более техническом плане ИИ хочет максимизировать полезность, которая зависит от реализованной функции полезности . В случае DQN это будет максимизировать счет в игре.

Человеческий мозг функционирует аналогичным образом, хотя и немного сложнее, а зачастую и не так прямо. Мы, как люди, обычно стараемся корректировать свои действия, чтобы производить высокий уровень дофамина и серотонина . Это похоже на вознаграждение, используемое для управления ИИ во время обучения подкреплению. Человеческий мозг узнает, какие действия производят наибольшее количество этих веществ, и находит стратегии, чтобы максимизировать результат. Это, конечно, упрощение этого сложного процесса, но вы получите представление.

Когда вы говорите о мотивации, пожалуйста, не путайте это с сознанием или квалиа . Это не требуется для мотивации вообще. Если вы хотите обсудить сознание и квалиа в искусственном интеллекте, это совершенно другая игра с мячом.

Ребенок не любопытен ради любопытства. Он получает положительное подкрепление при исследовании, потому что функция полезности мозга ребенка вознаграждает исследования, выпуская полезные нейротрансмиттеры. Так что механизм тот же. Применение этого к ИИ означает определение функции полезности, которая вознаграждает новый опыт. Нет внутреннего влечения без какого-либо поощрения.


Что касается редактирования, я думаю, что хорошим примером «функции полезности, которая вознаграждает за новый опыт» будут функции поиска новизны, предложенные Кеном Стэнли для использования в его аккуратном алгоритме.
Nickw

5

Это интересный вопрос на самом деле.

В книге «Об интеллекте», написанной Джеффом Хокинсом и Сандрой Блейксли, есть довольно реалистичное представление о том, «откуда может появиться любопытство».

Он основан на таких утверждениях:

  • Разум создает свою собственную модель мира, в которой он существует.

  • Он все время делает прогнозы (на самом деле Джефф Хокинс утверждает, что это главная характеристика интеллекта).

  • Когда за предсказанием чего-либо не последовало соответствующее поведение мира, тогда эта вещь становится очень интересной для ума (модель неверна и должна быть исправлена) и требует большего внимания.

Например, когда вы смотрите на левый человеческий глаз, ваш мозг предсказывает, что это человеческое лицо, и должен быть второй глаз справа. Вы смотрите направо и видите .. нос! Какой сюрприз! Теперь это требует всего вашего внимания, и у вас есть мотивация, чтобы сделать больше наблюдений о такой странной вещи, которая не вписывалась в вашу модель.

Поэтому я бы сказал, что ИИ может делать что-то определенное в соответствии с его моделью или вести себя случайным образом, в то время как предсказания, которые он делает в отношении мира, верны. Но как только некоторые прогнозы нарушаются, ИИ получает мотивацию для исправления ошибок в своей модели.

В простом случае машина запускается с полной случайностью, просто делая все возможное со своим выводом. Хотя у него нет модели или случайной модели, когда он обнаруживает какой-то порядок или повторяющиеся шаблоны, он становится «заинтересованным» и добавляет его в модель. Через некоторое время модель становится более сложной, делая более сложные предсказания и выявляя ошибки более высокого уровня в модели. Постепенно он узнает, что делать, чтобы наблюдать что-то интересное, а не просто помнить все.


Спасибо за вклад! Я пришел к тем же выводам ... теперь думаю о том, как это осуществить :)
Алексей Майде,

Этот ответ имеет важное значение. Исправление ошибок в моделях прогнозирования дало бы хороший стимул для интеллектуального ИИ учиться и действовать любопытно.
Сет Симба

3

Я задал подобный вопрос профессору Ричарду Саттону в первой лекции курса по подкреплению. Кажется, есть разные способы мотивации машины. На самом деле, мотивация машины кажется мне специализированной областью исследований.

Как правило, машины мотивируются тем, что мы называем целевой функцией или функцией стоимости или функцией потерь . Это разные названия для одной и той же концепции. Иногда они обозначаются

L(a)

Цель машины затем решить либо задачу минимизации, , или задача максимизации, , в зависимости от определения .minaL(a)maxaL(a)L


1

Я провел некоторое время, думая об этом в контексте игр.

Проблема с функциями вознаграждения состоит в том, что они обычно включают в себя взвешивающие узлы, что полезно, но в конечном итоге не имеет никакого материального значения.

Вот две материально значимые награды:

ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ

Рассмотрим игру, в которой ИИ конкурирует не за очки, а за процессорное время и память.

Чем лучше алгоритм работает в игре, тем больше памяти и обработки он получает. Это имеет практический эффект - чем больше ресурсов доступно автомату, тем сильнее его возможности. (т. е. его рациональность менее ограничена с точки зрения времени и пространства для принятия решения.) Таким образом, алгоритм будет «мотивирован» преобладать в таком состязании.

ENERGY

Любые автоматы с достаточной степенью «самосознания», в данном случае относящиеся к знаниям о том, что для их обработки требуется энергия, будут мотивированы на самооптимизацию своего собственного кода, чтобы исключить ненужное переключение битов (ненужное потребление энергии).

Такой алгоритм также будет мотивирован для обеспечения его питания, чтобы он мог продолжать функционировать.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.