Определенно есть способ представить то, что многие называют усиленным обучением, в реальных веб-приложениях, приложениях для мобильных устройств и рабочих станций.
Это делают военные организации, киноиндустрия, компании, занимающиеся программным обеспечением, и я это сделал для компаний из списка Fortune 500 и для малого бизнеса. Существуют адаптивные компоненты обучения во всех видах системных компонентов, встроенных в более крупные системы, от роботов распознавания лиц FaceBook до Google Translate, систем распознавания почтовых индексов USPS и автономных систем управления полетом и движением. Программное обеспечение для автоматизированного проектирования (САПР), безусловно, является жизнеспособной целью.
Основа для армирования
Рассмотрим серию векторов, описывающих события. Представьте, что они разделены на две подсерии A и B. Нейронная сеть (искусственная или биологическая) может быть обучена с использованием A.
Обучение может контролироваться, что означает, что одно из измерений вектора считается меткой и, следовательно, зависимой переменной для оптимального прогнозирования. Другие измерения затем становятся фактами или входными сигналами и, следовательно, независимыми переменными, используемыми для прогнозирования. Тренировка может быть оставлена без присмотра с использованием функции извлечения.
В любом случае, когда предоставляется A до B и ожидается, что он будет работать в производстве (реальном использовании) до прибытия B, более позднее прибытие B представляет выбор.
- Сотрите веса и любые корректировки метапараметров, сделанные во время тренировки с A, и перезапустите тренировку с объединенными рядами A и B.
- Продолжайте тренировку с B, и в этом случае сеть будет смещена по A, и результат будет отличаться от результата, полученного при тренировке с B, а затем с A.
- Найдите способ ограничить смещение первой тренировки с А, избегая при этом потребления ресурсов, необходимого для выбора № 1 выше.
Выбор № 3 - лучший выбор во многих случаях, поскольку он содержит преимущества вариантов № 1 и № 2. Математически, № 3 достигается тем, что каким-то образом облегчает вытеснение того, что было извлечено из серии А. Вес нейронной сети и корректировки мета-параметров должны быть подвержены коррекции, поскольку новый опыт указывает на необходимость сделать это. Один наивный подход может быть математически сформулирован как обратная экспоненциальная функция, которая моделирует естественный распад во многих явлениях в физике, химии и социальных науках.
P = e -nt , где P - вероятность того, что факт все еще эффективен, n - скорость затухания прошлой изученной информации, а t - некоторая мера продвижения вперед, такая как отметка времени, номер подпоследовательности (пакета), порядковый номер факта или номер события.
В случае подсерий A и B, когда вышеприведенная формула каким-либо образом реализована в механизме обучения, обучение A приведет к меньшему смещению в конечном результате после продолжения обучения с использованием B, поскольку t для A меньше чем t для B, сообщая механизму, что B более вероятно уместен.
Если мы рекурсивно разделим А и В пополам, создавая все более и более детализированные подсерии, вышеупомянутая идея постепенного разложения предыдущей информации остается и действительной, и ценной. Смещение сети к первой информации, используемой для обучения, является эквивалентом психологических концепций ограниченности. Системы обучения, которые развились в мозг млекопитающих, похоже, забывают или теряют интерес к прошлым вещам, чтобы поощрить непредубежденность, которая является не чем иным, как возможностью нового обучения иногда вытеснять предыдущее обучение, если новая информация содержит более сильные образцы для обучения.
Есть две причины, по которым более новые примеры данных постепенно перевешивают более старые примеры данных.
- Вышеупомянутое устранение предвзятости более раннего обучения для адекватного взвешивания более поздних событий в дальнейшем обучении имеет смысл, если все события, пережитые (обученные), представляют разумные факты о внешнем мире, который система пытается изучить.
- Внешний мир может меняться, и старшее обучение может фактически стать неактуальным или даже вводить в заблуждение.
Это необходимо для того, чтобы важность предшествующей информации постепенно снижалась по мере продолжения обучения, что является одним из двух основных аспектов подкрепления. Второй аспект - это набор корректирующих концепций, основанных на идее сигнализации обратной связи.
Обратная связь и усиление
Сигнал обратной связи в усиленном обучении - это машинное обучение, эквивалентное знакомым психологическим понятиям, таким как боль, удовольствие, удовлетворенность и хорошее самочувствие. Системе обучения предоставляется информация, которая направляет обучение за пределы цели извлечения признаков, независимости группировок или поиска матрицы весов нейронной сети, которая аппроксимирует взаимосвязь между входными признаками событий и их метками.
Предоставленная информация может исходить из заранее запрограммированного распознавания образов или извне из вознаграждения и наказания, как в случае с млекопитающими. Методы и алгоритмы, которые разрабатываются в усиленном машинном обучении, часто используют эти дополнительные сигналы (используя квантование времени при обработке) или непрерывно, используя независимость блоков обработки параллельных архитектур обработки.
Эта работа была впервые введена в Массачусетском технологическом институте Норбертом Винером и изложена в его книге «Кибернетика» (MIT Press, 1948). Слово кибернетика происходит от более старого слова, которое означает управление кораблями . Автоматическое движение руля, чтобы остаться на курсе, возможно, было первой механической системой обратной связи. Ваш двигатель газонокосилки, вероятно, имеет один.
Адаптивные приложения и обучение
Простая адаптация в режиме реального времени к положению руля или газу газонокосилки не учится. Такая адаптация обычно представляет собой некоторую форму линейного ПИД-регулирования. Технология машинного обучения, которая сегодня расширяется, охватывает оценку и управление сложными нелинейными системами, которые математики называют хаотичными.
Под хаотичным они не подразумевают, что описанные процессы находятся в безумии или дезорганизованы. Хаотики обнаружили десятилетия назад, что простые нелинейные уравнения могут привести к высокоорганизованному поведению. Они имеют в виду, что это явление слишком чувствительно к небольшим изменениям, чтобы найти какой-то фиксированный алгоритм или формулу для их прогнозирования.
Язык такой. В том же заявлении говорится, что с дюжиной различных вокальных наклонностей может означать дюжину разных вещей. Английское предложение «Действительно» является примером. Вполне вероятно, что методы подкрепления позволят будущим машинам различать с высокой вероятностью успеха различные значения этого утверждения.
Почему игры в первую очередь?
Игры имеют очень простой и легко определяемый набор возможных сценариев. Джон фон Нейман, один из основных участников появления компьютера, утверждал в книге « Теория игр и экономического поведения» , которую он в соавторстве с Оскаром Моргенштерном, что все планирование и принятие решений на самом деле являются играми различной сложности.
Рассмотрим игры как учебный пример набора мозгов, который со временем создаст системы, которые могут определять значение утверждения, как могут образованные люди, из трех источников подсказок.
- Контекст в разговоре или социальном сценарии
- Голосовые перегибы говорящего
- Выражения лица и язык тела говорящего
Помимо шахмат и игры в го
На пути от игр к языковым системам с точным пониманием и более глубокими способностями к слушанию есть несколько приложений усиленного обучения, которые имеют гораздо большее значение для Земли и человеческого опыта.
- Системы, которые учатся отключать или ослаблять освещение, бытовые приборы, цифровые системы, системы отопления, вентиляции и кондиционирования воздуха и другие энергопотребляющие устройства. Энергия, возможно, является наиболее геополитически влиятельным товаром в истории человечества из-за истощения запасов ископаемого топлива с течением времени.)
- Развитие автономных транспортных средств - Опасная тенденция эксплуатации тяжелой техники, такой как самолеты, внедорожники, грузовики, автобусы и прицепы для тракторов людьми с неизвестным состоянием сознания на открытых дорогах, вероятно, будет воспринята будущими людьми как безумие.
- Оценка достоверности информации - информация есть везде, и более 99% из них являются ошибочными, частично или полностью. Очень мало подтверждено реальными исследованиями, либо правильно спроектированными и интерпретированными двойными слепыми рандомизированными исследованиями, либо подтвержденными лабораторными испытаниями и анализом.
- Медицинские приложения, которые лучше диагностируют, подбирают средства индивидуальной защиты и помогают при постоянном уходе предотвращать рецидивы.
Эти четыре и многие другие гораздо важнее, чем накопление богатства с помощью автоматической высокоскоростной торговли или выигрышей игровых соревнований, двух интересов, связанных с автоматическим машинным обучением, которые влияют лишь на одно или два поколения семьи одного человека.
Богатство и слава - это то, что в теории игр называется игрой с нулевой суммой . Они приносят столько же потерь, сколько и выигрышей, если учесть более высокую философию Золотого правила, согласно которой другие и их семьи имеют для нас одинаковое значение.
Программное обеспечение для усиленного обучения для САПР (автоматизированного проектирования)
Компьютерное проектирование является естественным предшественником компьютерного дизайна (без помощи людей), так же как разрывы с антиблокировкой естественным образом приводят к полностью автономным транспортным средствам.
Рассмотрим команду: «Создайте мне мыльницу для душа, которая максимально увеличивает вероятность того, что моя семья сможет схватить мыло с первой попытки, не открывая глаз, и сводит к минимуму трудности в поддержании чистоты мыла и поверхностей душа. Вот высота члены моей семьи и несколько фотографий душевой. " Затем на устройстве появится готовый к подключению 3D-принтер вместе с инструкциями по установке.
Конечно, такую систему компакт-дисков (САПР без А) необходимо обучить ведению домашнего хозяйства, поведению человека без видения, способам прикрепления предметов к плитке, инструментам и возможностям обслуживания дома обычного потребителя, возможностям 3D-принтера. и несколько других вещей.
Такие разработки в области автоматизации производства, вероятно, начнутся с углубленного изучения более простых команд, таких как «Присоедините эти две части, используя крепежные детали серийного производства и лучшие практики». Затем программа САПР будет выбирать оборудование из винтов, заклепок, клеев и других опций, возможно, задавая вопросы проектировщику о рабочих температурах и диапазонах вибрации. Выбор, положение и угол будут добавлены к соответствующему набору деталей CAD, сборочных чертежей и спецификаций.