Быстрый ответ
Когда Intel приобрела Nirvana, они выразили уверенность в том, что аналог VLSI найдет свое место в нейроморфных чипах ближайшего будущего 1, 2, 3 .
Было ли это из-за способности более легко эксплуатировать естественный квантовый шум в аналоговых схемах, пока не известно. Это более вероятно из-за количества и сложности функций параллельной активации, которые могут быть упакованы в один чип VLSI. Аналоговый имеет преимущество на несколько порядков над цифровым в этом отношении.
Для участников AI Stack Exchange, вероятно, будет полезно быстро освоить эту четко обозначенную эволюцию технологии.
Важные тренды и нетенденции в искусственном интеллекте
Чтобы с научной точки зрения подойти к этому вопросу, лучше всего сопоставить теорию аналоговых и цифровых сигналов без смещения тенденций.
Энтузиасты искусственного интеллекта могут найти в Интернете много информации о глубоком обучении, извлечении функций, распознавании изображений и библиотеках программного обеспечения для загрузки и немедленного начала экспериментов. Это способ, с помощью которого большинство людей становятся мокрыми от этой технологии, но быстрое введение в ИИ имеет и обратную сторону.
Когда теоретические основы раннего успешного развертывания ИИ, ориентированного на потребителя, не поняты, возникают предположения, которые противоречат этим основам. Важные параметры, такие как аналоговые искусственные нейроны, шипованные сети и обратная связь в реальном времени, упускаются из виду. Улучшение форм, возможностей и надежности поставлено под угрозу.
Энтузиазм в развитии технологий всегда должен сдерживаться, по крайней мере, в равной мере рациональным мышлением.
Конвергенция и стабильность
В системе, где точность и стабильность достигаются с помощью обратной связи, как аналоговые, так и цифровые значения сигналов всегда являются просто оценками.
- Цифровые значения в сходящемся алгоритме или, точнее, в стратегии, предназначенной для сближения
- Значения аналогового сигнала в стабильной схеме операционного усилителя
Понимание параллели между сходимостью посредством исправления ошибок в цифровом алгоритме и стабильностью, достигаемой с помощью обратной связи в аналоговых измерительных приборах, важно для обдумывания этого вопроса. Это параллели, использующие современный жаргон, с цифровым слева и аналоговым справа.
┌───────────────────────────────┬───────────────── ─────────────┐
Digital * Цифровые искусственные сети * │ * Аналоговые искусственные сети * │
├───────────────────────────────┼───────────────── ─────────────┤
│ прямое распространение │ первичный путь прохождения сигнала │
├───────────────────────────────┼───────────────── ─────────────┤
│ функция ошибок │ функция ошибок │
├───────────────────────────────┼───────────────── ─────────────┤
│ сходящийся │ стабильный ble
├───────────────────────────────┼───────────────── ─────────────┤
│ Насыщенность градиента │ Насыщенность на входах │
├───────────────────────────────┼───────────────── ─────────────┤
Function Функция активации │ Функция прямой передачи │
└───────────────────────────────┴───────────────── ─────────────┘
Популярность цифровых схем
Основным фактором роста популярности цифровых схем является сдерживание шума. Современные цифровые схемы VLSI имеют длительное среднее время до отказа (среднее время между случаями, когда встречается неправильное битовое значение).
Виртуальное устранение шумов дало цифровым схемам существенное преимущество перед аналоговыми схемами для измерений, ПИД-регулирования, расчетов и других приложений. С помощью цифровых схем можно измерять точность до пяти десятичных цифр, контролировать с замечательной точностью и вычислять от π до тысячи десятичных цифр с высокой точностью, повторяемостью и надежностью.
В основном это были бюджеты на аэронавтику, оборону, баллистику и контрмеры, которые повысили спрос на производство для достижения эффекта масштаба в производстве цифровых схем. В настоящее время спрос на разрешение экрана и скорость рендеринга способствует использованию графического процессора в качестве процессора цифровых сигналов.
Являются ли эти в значительной степени экономические факторы причиной выбора наилучшего дизайна? Являются ли искусственные сети на цифровой основе лучшим использованием дорогой недвижимости СБИС? Это проблема этого вопроса, и это хороший вопрос.
Реалии сложности IC
Как упоминалось в комментарии, для реализации в кремнии независимого многоразового искусственного нейрона многократного использования требуются десятки тысяч транзисторов. Во многом это связано с умножением векторной матрицы на каждый уровень активации. Требуется всего несколько десятков транзисторов на один искусственный нейрон для реализации умножения векторной матрицы и набора операционных усилителей слоя. Операционные усилители могут быть спроектированы для выполнения таких функций, как бинарный шаг, сигмоид, софт плюс, ELU и ISRLU.
Цифровой сигнал шума от округления
Цифровая сигнализация не свободна от шума, потому что большинство цифровых сигналов округлены и, следовательно, являются приблизительными. Насыщенность сигнала при обратном распространении сначала появляется как цифровой шум, генерируемый из этого приближения. Дальнейшее насыщение происходит, когда сигнал всегда округляется до одного и того же двоичного представления.
vеКNN
v = ∑Nn = 01N2к + е + н- н
Программисты иногда сталкиваются с эффектами округления в числах с плавающей запятой IEEE двойной или одинарной точности, когда ответы, которые ожидаются равными 0,2, отображаются как 0.20000000000001. Одна пятая не может быть представлена с идеальной точностью в виде двоичного числа, потому что 5 не является фактором 2.
Наука над медиа ажиотаж и популярные тенденции
Е= м с2
В машинном обучении, как и во многих технологических продуктах, существует четыре ключевых показателя качества.
- Эффективность (которая определяет скорость и экономичность использования)
- надежность
- точность
- Понятность (которая определяет ремонтопригодность)
Иногда, но не всегда, достижение одного компрометирует другого, и в этом случае должен быть достигнут баланс. Градиентный спуск - это стратегия конвергенции, которая может быть реализована в цифровом алгоритме, который хорошо уравновешивает эти четыре, поэтому она является доминирующей стратегией в многослойном обучении персептрону и во многих глубоких сетях.
Эти четыре вещи были центральными в ранней работе Норберта Винера по кибернетике до появления первых цифровых схем в Bell Labs или первого триггера, реализованного с помощью вакуумных ламп. Термин кибернетика происходит от греческого κυβερνήτης (произносится как kyvernítis ), означающего рулевого, где руль и паруса должны были компенсировать постоянно меняющийся ветер и течение, а судно должно было сходиться в предполагаемом порту или гавани.
Взгляд на этот вопрос, основанный на тенденциях, может окружать идею о том, можно ли реализовать VLSI для достижения эффекта масштаба для аналоговых сетей, но критерий, заданный его автором, состоит в том, чтобы избегать представлений, основанных на тенденциях. Даже если бы это было не так, как упоминалось выше, для создания искусственных сетевых уровней с аналоговой схемой требуется значительно меньше транзисторов, чем с цифровыми. По этой причине правомерно ответить на вопрос, предполагая, что аналог СБИС вполне выполним при разумных затратах, если бы внимание было направлено на его выполнение.
Проектирование аналоговых искусственных сетей
Аналоговые искусственные сети исследуются во всем мире, в том числе совместное предприятие IBM / MIT, Intel Nirvana, Google, ВВС США еще в 1992 году 5 , Tesla и многие другие, некоторые из которых указаны в комментариях и дополнении к этому. вопрос.
Интерес к аналогу для искусственных сетей связан с количеством функций параллельной активации, участвующих в обучении, которые могут поместиться в квадратный миллиметр площади микросхемы СБИС. Это во многом зависит от того, сколько транзисторов требуется. Матрицы ослабления (матрицы параметров обучения) 4 требуют умножения векторной матрицы, что требует большого количества транзисторов и, следовательно, значительной части СБИС.
В базовой многослойной сети персептрона должно быть пять независимых функциональных компонентов, чтобы она была доступна для полностью параллельного обучения.
- Векторно-матричное умножение, которое параметризует амплитуду прямого распространения между функциями активации каждого слоя
- Сохранение параметров
- Функции активации для каждого слоя
- Сохранение выходных данных уровня активации для применения в обратном распространении
- Производная функций активации для каждого слоя
В аналоговых схемах с большим параллелизмом, присущим методу передачи сигналов, 2 и 4 могут не потребоваться. Теория обратной связи и гармонический анализ будут применяться к проектированию схемы с использованием симулятора, такого как Spice.
спс ( ∫г )r ( t , c )Tяявеся τпτaτd
с = спс ( ∫r ( t , c )dт )( ∑я- 2я = 0( τпвесявеся - 1+ τaвеся+ τdвеся) + τaвеся- 1+ τdвеся- 1)
Для общих значений этих схем в современных аналоговых интегральных схемах мы имеем стоимость аналоговых микросхем СБИС, которая со временем сходится к значению, по крайней мере, на три порядка ниже, чем у цифровых микросхем с эквивалентным обучающим параллелизмом.
Непосредственная адресация шумовой инъекции
Вопрос гласит: «Мы используем градиенты (якобиан) или модели второй степени (гессиан) для оценки следующих шагов в сходящемся алгоритме и намеренно добавляем шум [или] вводим псевдослучайные возмущения для повышения надежности сходимости, выпрыгивая из локальных скважин в ошибке поверхность во время схождения. "
Причина, по которой псевдослучайный шум вводится в алгоритм конвергенции во время обучения и в реентерабельных сетях в реальном времени (таких как сети усиления), заключается в существовании локальных минимумов на поверхности диспаратности (ошибки), которые не являются глобальными минимумами этого поверхность. Глобальные минимумы - это оптимальное обученное состояние искусственной сети. Локальные минимумы могут быть далеко не оптимальными.
Эта поверхность иллюстрирует функцию ошибок параметров (два в этом очень упрощенном случае 6 ) и проблему локальных минимумов, скрывающих существование глобальных минимумов. Нижние точки на поверхности представляют минимумы в критических точках локальных областей оптимальной обучающей конвергенции. 7,8
Функции ошибок - это просто мера несоответствия между текущим состоянием сети во время обучения и желаемым состоянием сети. Во время обучения искусственным сетям цель состоит в том, чтобы найти глобальный минимум этого неравенства. Такая поверхность существует независимо от того, помечены или нет метки данных образца, а также является ли критерий завершения обучения внутренним или внешним по отношению к искусственной сети.
Если скорость обучения мала, а начальное состояние находится в начале пространства параметров, сходимость с использованием градиентного спуска будет сходиться к самой левой лунке, которая является локальным минимумом, а не глобальным минимумом справа.
Даже если эксперты, инициализирующие искусственную сеть для обучения, достаточно умны, чтобы выбрать среднюю точку между двумя минимумами, градиент в этой точке все еще наклоняется к левому минимуму, и сходимость достигнет неоптимального состояния обучения. Если оптимальность обучения является критической, что часто бывает, обучение не сможет достичь качественных результатов производства.
Одно из используемых решений состоит в том, чтобы добавить энтропию к процессу сходимости, который часто представляет собой просто введение ослабленного выходного сигнала генератора псевдослучайных чисел. Другое реже используемое решение состоит в том, чтобы ветвить процесс обучения и попробовать ввести большое количество энтропии во второй конвергентный процесс, так что параллельно выполняется консервативный поиск и несколько дикий поиск.
Это правда, что квантовые шумы в чрезвычайно малых аналоговых цепях имеют большую однородность спектра сигнала по своей энтропии, чем цифровой псевдослучайный генератор, и для достижения шума более высокого качества требуется гораздо меньше транзисторов. Были ли преодолены проблемы, связанные с этим в реализациях СБИС, еще предстоит выяснить исследовательским лабораториям, работающим в правительствах и корпорациях.
- Будут ли такие стохастические элементы, используемые для введения измеренных величин случайности, для повышения скорости и надежности тренировки, быть адекватно невосприимчивыми к внешним шумам во время тренировки?
- Будут ли они достаточно защищены от внутренних перекрестных помех?
- Возникнет ли спрос, который снизит стоимость производства СБИС в достаточной степени, чтобы достичь точки более широкого использования за пределами высоко финансируемых исследовательских предприятий?
Все три проблемы правдоподобны. Что несомненно, а также очень интересно, так это то, как разработчики и производители облегчают цифровое управление путями аналогового сигнала и функциями активации для достижения высокоскоростного обучения.
Сноски
[1] https://ieeexplore.ieee.org/abstract/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticst Saturday.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
[4] Под ослаблением понимается умножение выходного сигнала от одного срабатывания на обучаемый измеритель, чтобы обеспечить суммирование с другими для ввода для активации следующего уровня. Хотя это физический термин, он часто используется в электротехнике и является подходящим термином для описания функции умножения векторной матрицы, которая достигает того, что в менее образованных кругах называется взвешиванием входных данных слоя.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] В искусственных сетях существует намного больше двух параметров, но только два изображены на этом рисунке, потому что график может быть понятен только в 3-D, и нам нужно одно из трех измерений для значения функции ошибки.
[7] Определение поверхности:
Z= ( х - 2 )2+ ( у- 2 )2+ 60 - 401 + ( у- 1.1 )2+ ( х - 0,9 )2√- 40( 1 + ( ( у- 2.2 )2+ ( х - 3,1 )2)4)
[8] Связанные команды gnuplot:
set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
- 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
- 40 / (1+(y-2.2)**2+(x-3.1)**2)**4