Есть ли какие-либо приложения для обучения подкреплению, кроме игр?

Есть ли способ научить усиленному обучению в приложениях, отличных от игр?

Единственные примеры, которые я могу найти в Интернете, - это игровые агенты. Я понимаю, что VNC контролирует вход в игры через сеть подкрепления. Можно ли настроить это, скажем, с помощью программного обеспечения САПР?

reinforcement-learning applications

— Марк Марк микроволновый Чарльтон
источник

Да, это возможно, но реальный вопрос должен заключаться в том, является ли он более эффективным, чем другие алгоритмы, или нет. Если у вас есть конкретная цель, вы можете думать об этом и моделировать ее как игру (даже жизнь - это игра;)). Фактически, многие успешные ИИ используют более чем одну технику. Взгляните на это: datascience.stackexchange.com/questions/11126/…

— TasosGlrs

Суть AlphaGo заключается в том, что определенный тип игр ( нетривиальная , не случайная, безупречная информация), в частности, является отличным полигоном для ИИ, потому что эти игры имеют очень простые параметры, но сложность сродни природе. Игры, с определенной точки зрения, являются наиболее полезными видами артефактов, потому что они учат абстрактному и стратегическому мышлению. Чтобы понять важность игр, взгляните на влияние теории игр на информатику .

— DukeZhou

Это может быть из-за NDA. Лучшие обучающие приложения являются проприетарными, равно как и лучшее программное обеспечение сотовой вышки, или лучшее распознавание голоса, или лучшие онлайн торговые центры. Это вообще инженерное дело.

— FauChristian

Правильно. Если все, что у вас есть, это теория игр, мир становится игрой.

— FelicityC

Ответы:

Один из классных примеров обучения подкреплению - автономный летающий вертолет. У меня была возможность узнать кое-что из того, что недавно сделал Эндрю Нг и другие. Вот исследовательская статья документ . Есть и другие подобные документы тоже. Вы можете погуглить их, если хотите узнать больше.

Вы также можете увидеть это в действии в этом видео на YouTube .

Вот еще одно совершенно другое применение в финансах, по-видимому.

В учебной литературе по подкреплению вы увидите множество игровых примеров, поскольку игровые среды часто можно эффективно кодировать и быстро запускать на одном компьютере, который может содержать среду и агент. Для классических игр, таких как нарды, шашки, шахматы, го, есть эксперты-люди, с которыми мы можем сравнить результаты. Определенные игры или упрощенные игровые среды обычно используются для сравнения различных подходов, подобно тому, как рукописные цифры MNIST используются для сравнения контролируемых подходов к обучению.

Есть ли способ научить усиленному обучению в приложениях, отличных от игр?

Да. Неформально вы можете применять подходы к обучению с подкреплением всякий раз, когда вы можете сформулировать проблему как агент, действующий в среде, где он может быть проинформирован о состоянии и ценности вознаграждения, влияющей на цели. Более формально, теория подкрепляющего обучения основана на решениях Марковских процессов принятия решений , поэтому, если вы можете приспособить описание вашей проблемы к MDP, можно применять различные методы, используемые в RL, такие как Q-learning, SARSA, REINFORCE. Это соответствие теории не обязательно должно быть идеальным для работы получившейся системы, например, вы часто можете рассматривать неизвестное или несовершенно наблюдаемое состояние как эффективно случайное для агента и рассматривать эту часть стохастической среды.

Вот несколько примеров возможного использования для обучения подкреплению вне развлекательных игр:

Логика управления моторизованным роботом, например, обучение переворачиванию блинов и другие примеры . Здесь измерения окружающей среды производятся физическими датчиками на роботе. Награды даются за достижение цели, но также могут быть скорректированы на плавность, экономное использование энергии и т. Д. Агент выбирает действия низкого уровня, такие как крутящий момент двигателя или положение реле. Теоретически могут быть вложенные агенты, в которых высокоуровневые агенты выбирают цели для низкоуровневых - например, робот может на высоком уровне решить между выполнением одной из трех задач, требующих перемещения в разные места, и на более низком уровне может быть решения о том, как управлять двигателями, чтобы переместить робота к выбранной цели.
Самостоятельные автомобили. Несмотря на то, что большое внимание уделяется интерпретации датчиков - с учетом разметки дорог, пешеходов и т. Д., Требуется система управления для выбора акселератора, тормоза и рулевого управления.
Автоматизированная финансовая торговля. Возможно игра для некоторых, есть четкие реальные последствия. Сигнал вознаграждения достаточно прост, хотя, и RL может быть скорректирована, чтобы предпочесть долгосрочные или краткосрочные выгоды.

Можно ли настроить это, скажем, с помощью программного обеспечения САПР?

В теории да, но я не знаю, что может быть доступно для этого на практике. Кроме того, вам необходимо помнить одну или несколько целей, которые вы вводите в код агента (в качестве значений вознаграждения, которые он может наблюдать), прежде чем дать ему виртуальную мышь и задать задачу для рисования чего-либо. Компьютерные игры поставляются со схемой вознаграждения, встроенной в систему подсчета очков, и обеспечивают частую обратную связь, поэтому агент может быстро получить представление о хороших и плохих решениях. Вам нужно будет заменить этот скоринговый компонент чем-то, что представляет ваши цели для системы на основе CAD.

САПР не имеет ничего подходящего встроенного, хотя инструменты САПР с имитацией, такие как различные физические движки или анализ методом конечных элементов, могут позволить вам оценивать проекты на основе смоделированной физической меры. Другие возможности включают анализ напряжения, безотходное использование материала, любые метрики, которые система CAD / CAM может обеспечить для частичного или завершенного проектирования. Сложная часть заключается в том, чтобы ограничить дизайн своей целью или назначением и либо организовать его вознаграждение, либо создать ограничения в среде; Предоставление агенту RL полного неограниченного контроля над процессом САПР и вознаграждение при минимальной нагрузке, вероятно, приведет к чему-то очень неинтересному, например, к маленькому кубу.

— Нил Слэйтер
источник

Множество подходящих вещей: автоматическое определение размеров для максимальной визуальной четкости, поиск помех для движущихся частей под нагрузкой (без FEA), оптимизация вывода CAM, ускорение рендеринга с использованием приблизительной информации о глубине z и т. Д., И т. Д.

— FauChristian

@FauChristian: я не уверен, что все они могут быть поданы в качестве сигнала награды так же просто, как игровой счет. Например, оптимизация дизайна для уменьшения нагрузки подразумевает, что у вашего дизайна есть цель - вам также нужно добавить некоторые ограничения / правила для отслеживания этой цели, и это может быть сложнее, если у вас также нет некоторого эргономического анализа. Тем не менее, комментарий добавляет некоторые вещи, которые я мог бы упомянуть, и добавит к ответу.

— Нил Слэйтер

Да. Правда. Я постараюсь. Пожалуйста, извините за строку комментариев, мне нужно сделать это. В каждом из вышеперечисленных случаев моей целью будет объединение проблем конструктора механики в единый оздоровительный сигнал, который мог бы руководить итерациями, имея в виду, что может быть несколько органов NN, каждый из которых может питаться различным агрегацией. Но для простоты я собираю каждый случай в скаляр. Для большинства из них потребуется стохастический элемент, потому что в большинстве случаев в САПР имеется несколько критических точек на поверхности агрегированного значения.

— FauChristian

Автоматическое определение размеров - w = sqrt (Σ min (s_clear, s_nice)) + k n_jumps, ... где ... w - агрегат качества состояния размеров чертежа, из которого можно получить нормализованный сигнал обратной связи, s_clear это расстояние между измерительной линией и ближайшей другой линией, исключая линии перехода, s_nice - метапараметр, представляющий хорошее расстояние между линиями для типа измеряемого чертежа, k - константа, а n_jumps - количество линий перехода ( где линии будут пересекаться, но у одного из двух будет пробел, указывающий, что он прыгает позади другой линии).

— FauChristian

Поиск помех - w = n, ... где ... w - совокупность качества поиска помех, а n - количество помех, обнаруженных после подачи догадок итераций в динамическое моделирование предположения. Эта игра похожа на игру в том смысле, что чем больше угадывает правильное вмешательство, тем выше оценка.

— FauChristian

Определенно есть способ представить то, что многие называют усиленным обучением, в реальных веб-приложениях, приложениях для мобильных устройств и рабочих станций.

Это делают военные организации, киноиндустрия, компании, занимающиеся программным обеспечением, и я это сделал для компаний из списка Fortune 500 и для малого бизнеса. Существуют адаптивные компоненты обучения во всех видах системных компонентов, встроенных в более крупные системы, от роботов распознавания лиц FaceBook до Google Translate, систем распознавания почтовых индексов USPS и автономных систем управления полетом и движением. Программное обеспечение для автоматизированного проектирования (САПР), безусловно, является жизнеспособной целью.

Основа для армирования

Рассмотрим серию векторов, описывающих события. Представьте, что они разделены на две подсерии A и B. Нейронная сеть (искусственная или биологическая) может быть обучена с использованием A.

Обучение может контролироваться, что означает, что одно из измерений вектора считается меткой и, следовательно, зависимой переменной для оптимального прогнозирования. Другие измерения затем становятся фактами или входными сигналами и, следовательно, независимыми переменными, используемыми для прогнозирования. Тренировка может быть оставлена без присмотра с использованием функции извлечения.

В любом случае, когда предоставляется A до B и ожидается, что он будет работать в производстве (реальном использовании) до прибытия B, более позднее прибытие B представляет выбор.

Сотрите веса и любые корректировки метапараметров, сделанные во время тренировки с A, и перезапустите тренировку с объединенными рядами A и B.
Продолжайте тренировку с B, и в этом случае сеть будет смещена по A, и результат будет отличаться от результата, полученного при тренировке с B, а затем с A.
Найдите способ ограничить смещение первой тренировки с А, избегая при этом потребления ресурсов, необходимого для выбора № 1 выше.

Выбор № 3 - лучший выбор во многих случаях, поскольку он содержит преимущества вариантов № 1 и № 2. Математически, № 3 достигается тем, что каким-то образом облегчает вытеснение того, что было извлечено из серии А. Вес нейронной сети и корректировки мета-параметров должны быть подвержены коррекции, поскольку новый опыт указывает на необходимость сделать это. Один наивный подход может быть математически сформулирован как обратная экспоненциальная функция, которая моделирует естественный распад во многих явлениях в физике, химии и социальных науках.

P = e ^-nt , где P - вероятность того, что факт все еще эффективен, n - скорость затухания прошлой изученной информации, а t - некоторая мера продвижения вперед, такая как отметка времени, номер подпоследовательности (пакета), порядковый номер факта или номер события.

В случае подсерий A и B, когда вышеприведенная формула каким-либо образом реализована в механизме обучения, обучение A приведет к меньшему смещению в конечном результате после продолжения обучения с использованием B, поскольку t для A меньше чем t для B, сообщая механизму, что B более вероятно уместен.

Если мы рекурсивно разделим А и В пополам, создавая все более и более детализированные подсерии, вышеупомянутая идея постепенного разложения предыдущей информации остается и действительной, и ценной. Смещение сети к первой информации, используемой для обучения, является эквивалентом психологических концепций ограниченности. Системы обучения, которые развились в мозг млекопитающих, похоже, забывают или теряют интерес к прошлым вещам, чтобы поощрить непредубежденность, которая является не чем иным, как возможностью нового обучения иногда вытеснять предыдущее обучение, если новая информация содержит более сильные образцы для обучения.

Есть две причины, по которым более новые примеры данных постепенно перевешивают более старые примеры данных.

Вышеупомянутое устранение предвзятости более раннего обучения для адекватного взвешивания более поздних событий в дальнейшем обучении имеет смысл, если все события, пережитые (обученные), представляют разумные факты о внешнем мире, который система пытается изучить.
Внешний мир может меняться, и старшее обучение может фактически стать неактуальным или даже вводить в заблуждение.

Это необходимо для того, чтобы важность предшествующей информации постепенно снижалась по мере продолжения обучения, что является одним из двух основных аспектов подкрепления. Второй аспект - это набор корректирующих концепций, основанных на идее сигнализации обратной связи.

Обратная связь и усиление

Сигнал обратной связи в усиленном обучении - это машинное обучение, эквивалентное знакомым психологическим понятиям, таким как боль, удовольствие, удовлетворенность и хорошее самочувствие. Системе обучения предоставляется информация, которая направляет обучение за пределы цели извлечения признаков, независимости группировок или поиска матрицы весов нейронной сети, которая аппроксимирует взаимосвязь между входными признаками событий и их метками.

Предоставленная информация может исходить из заранее запрограммированного распознавания образов или извне из вознаграждения и наказания, как в случае с млекопитающими. Методы и алгоритмы, которые разрабатываются в усиленном машинном обучении, часто используют эти дополнительные сигналы (используя квантование времени при обработке) или непрерывно, используя независимость блоков обработки параллельных архитектур обработки.

Эта работа была впервые введена в Массачусетском технологическом институте Норбертом Винером и изложена в его книге «Кибернетика» (MIT Press, 1948). Слово кибернетика происходит от более старого слова, которое означает управление кораблями . Автоматическое движение руля, чтобы остаться на курсе, возможно, было первой механической системой обратной связи. Ваш двигатель газонокосилки, вероятно, имеет один.

Адаптивные приложения и обучение

Простая адаптация в режиме реального времени к положению руля или газу газонокосилки не учится. Такая адаптация обычно представляет собой некоторую форму линейного ПИД-регулирования. Технология машинного обучения, которая сегодня расширяется, охватывает оценку и управление сложными нелинейными системами, которые математики называют хаотичными.

Под хаотичным они не подразумевают, что описанные процессы находятся в безумии или дезорганизованы. Хаотики обнаружили десятилетия назад, что простые нелинейные уравнения могут привести к высокоорганизованному поведению. Они имеют в виду, что это явление слишком чувствительно к небольшим изменениям, чтобы найти какой-то фиксированный алгоритм или формулу для их прогнозирования.

Язык такой. В том же заявлении говорится, что с дюжиной различных вокальных наклонностей может означать дюжину разных вещей. Английское предложение «Действительно» является примером. Вполне вероятно, что методы подкрепления позволят будущим машинам различать с высокой вероятностью успеха различные значения этого утверждения.

Почему игры в первую очередь?

Игры имеют очень простой и легко определяемый набор возможных сценариев. Джон фон Нейман, один из основных участников появления компьютера, утверждал в книге « Теория игр и экономического поведения» , которую он в соавторстве с Оскаром Моргенштерном, что все планирование и принятие решений на самом деле являются играми различной сложности.

Рассмотрим игры как учебный пример набора мозгов, который со временем создаст системы, которые могут определять значение утверждения, как могут образованные люди, из трех источников подсказок.

Контекст в разговоре или социальном сценарии
Голосовые перегибы говорящего
Выражения лица и язык тела говорящего

Помимо шахмат и игры в го

На пути от игр к языковым системам с точным пониманием и более глубокими способностями к слушанию есть несколько приложений усиленного обучения, которые имеют гораздо большее значение для Земли и человеческого опыта.

Системы, которые учатся отключать или ослаблять освещение, бытовые приборы, цифровые системы, системы отопления, вентиляции и кондиционирования воздуха и другие энергопотребляющие устройства. Энергия, возможно, является наиболее геополитически влиятельным товаром в истории человечества из-за истощения запасов ископаемого топлива с течением времени.)
Развитие автономных транспортных средств - Опасная тенденция эксплуатации тяжелой техники, такой как самолеты, внедорожники, грузовики, автобусы и прицепы для тракторов людьми с неизвестным состоянием сознания на открытых дорогах, вероятно, будет воспринята будущими людьми как безумие.
Оценка достоверности информации - информация есть везде, и более 99% из них являются ошибочными, частично или полностью. Очень мало подтверждено реальными исследованиями, либо правильно спроектированными и интерпретированными двойными слепыми рандомизированными исследованиями, либо подтвержденными лабораторными испытаниями и анализом.
Медицинские приложения, которые лучше диагностируют, подбирают средства индивидуальной защиты и помогают при постоянном уходе предотвращать рецидивы.

Эти четыре и многие другие гораздо важнее, чем накопление богатства с помощью автоматической высокоскоростной торговли или выигрышей игровых соревнований, двух интересов, связанных с автоматическим машинным обучением, которые влияют лишь на одно или два поколения семьи одного человека.

Богатство и слава - это то, что в теории игр называется игрой с нулевой суммой . Они приносят столько же потерь, сколько и выигрышей, если учесть более высокую философию Золотого правила, согласно которой другие и их семьи имеют для нас одинаковое значение.

Программное обеспечение для усиленного обучения для САПР (автоматизированного проектирования)

Компьютерное проектирование является естественным предшественником компьютерного дизайна (без помощи людей), так же как разрывы с антиблокировкой естественным образом приводят к полностью автономным транспортным средствам.

Рассмотрим команду: «Создайте мне мыльницу для душа, которая максимально увеличивает вероятность того, что моя семья сможет схватить мыло с первой попытки, не открывая глаз, и сводит к минимуму трудности в поддержании чистоты мыла и поверхностей душа. Вот высота члены моей семьи и несколько фотографий душевой. " Затем на устройстве появится готовый к подключению 3D-принтер вместе с инструкциями по установке.

Конечно, такую систему компакт-дисков (САПР без А) необходимо обучить ведению домашнего хозяйства, поведению человека без видения, способам прикрепления предметов к плитке, инструментам и возможностям обслуживания дома обычного потребителя, возможностям 3D-принтера. и несколько других вещей.

Такие разработки в области автоматизации производства, вероятно, начнутся с углубленного изучения более простых команд, таких как «Присоедините эти две части, используя крепежные детали серийного производства и лучшие практики». Затем программа САПР будет выбирать оборудование из винтов, заклепок, клеев и других опций, возможно, задавая вопросы проектировщику о рабочих температурах и диапазонах вибрации. Выбор, положение и угол будут добавлены к соответствующему набору деталей CAD, сборочных чертежей и спецификаций.

— Дуглас Дасеко
источник

Обычно я бы не стал критически комментировать ответ, который хорошо написан, но, поскольку вы попросили дать критику: я думаю, что разделы «Основы подкрепления» , « Обратная связь» и «Подкрепление» и « Адаптивные приложения и обучение» могут быть значительно сокращены, так как Вопрос OP уже подразумевает некоторое знание RL, и вы тратите много времени на настройку этого связного базового обсуждения, прежде чем обратиться к исходному вопросу.

— Нил Слэйтер

То, что ОП задал вопрос, указывает на дыры либо на текущее состояние исследований, указывающее на кого-то новичка в этой области, и может потребоваться учебник для начинающих в предыдущих разделах. Последний раздел более прямо отвечает на вопрос.

— FauChristian