Текущий метод реализации мотивации - это своего рода искусственное вознаграждение. DQN Deepmind, например, определяется счетом игры. Чем выше оценка, тем лучше. ИИ учится корректировать свои действия, чтобы получить как можно больше очков и, следовательно, наибольшее вознаграждение. Это называется усилением обучения . Награда мотивирует ИИ адаптировать свои действия, так сказать.
В более техническом плане ИИ хочет максимизировать полезность, которая зависит от реализованной функции полезности . В случае DQN это будет максимизировать счет в игре.
Человеческий мозг функционирует аналогичным образом, хотя и немного сложнее, а зачастую и не так прямо. Мы, как люди, обычно стараемся корректировать свои действия, чтобы производить высокий уровень дофамина и серотонина . Это похоже на вознаграждение, используемое для управления ИИ во время обучения подкреплению. Человеческий мозг узнает, какие действия производят наибольшее количество этих веществ, и находит стратегии, чтобы максимизировать результат. Это, конечно, упрощение этого сложного процесса, но вы получите представление.
Когда вы говорите о мотивации, пожалуйста, не путайте это с сознанием или квалиа . Это не требуется для мотивации вообще. Если вы хотите обсудить сознание и квалиа в искусственном интеллекте, это совершенно другая игра с мячом.
Ребенок не любопытен ради любопытства. Он получает положительное подкрепление при исследовании, потому что функция полезности мозга ребенка вознаграждает исследования, выпуская полезные нейротрансмиттеры. Так что механизм тот же. Применение этого к ИИ означает определение функции полезности, которая вознаграждает новый опыт. Нет внутреннего влечения без какого-либо поощрения.