Если цифровые значения являются просто оценками, почему бы не вернуться к аналоговым для ИИ?


18

Толчком к переходу двадцатого века с аналоговых на цифровые схемы послужило стремление к большей точности и снижению шума. Сейчас мы разрабатываем программное обеспечение, результаты которого приблизительны, а шум имеет положительное значение.

  • В искусственных сетях мы используем градиенты (якобиан) или модели второй степени (гессиан) для оценки следующих шагов в сходящемся алгоритме и определения приемлемых уровней неточности и сомнений. 1
  • В стратегиях сходимости мы намеренно добавляем шум , вводя случайные или псевдослучайные возмущения для повышения надежности, по существу выпрыгивая из локальных минимумов на поверхности оптимизации во время сходимости. 2

То, что мы принимаем и сознательно внедряем в современные системы искусственного интеллекта, - это то же самое, что подталкивало электронику к цифровой схеме.

Почему бы не вернуться к аналоговым схемам для нейронных сетей и реализовать их с матрицами операционных усилителей вместо матриц элементов цифровой обработки сигналов?

Значения параметров обучения искусственной сети могут поддерживаться с помощью встроенных конденсаторов, заряжаемых через преобразователи D-в-A, так что изученные состояния могут выиграть от цифровой точности и удобства, в то время как прямое распространение выигрывает от аналоговых преимуществ.

  • Большая скорость 3
  • На порядок меньше транзисторов для представления ячеек сети
  • Естественный тепловой шум 4

Академическая статья или патентный поиск аналоговых искусственных сетей показывают много работы за последние сорок лет, и направление исследований сохраняется. Вычислительные аналоговые схемы хорошо разработаны и обеспечивают основу для нейронных массивов.

Может ли нынешняя одержимость цифровыми вычислениями омрачать общий взгляд на варианты архитектуры ИИ?

Является ли гибридный аналог превосходной архитектурой для искусственных сетей?

 


Сноски

[1] Система обучения PAC (вероятно, приблизительно правильная) связывает допустимую ошибку ε и приемлемое сомнение δ с размером выборки, необходимым для обучения для конкретных типов моделей. (Обратите внимание, что 1-ε представляет точность, а 1-δ уверенность в этой структуре.)

[2] Стохастический градиентный спуск показан, когда используются соответствующие стратегии и гиперпараметры, чтобы быстрее сходиться во время обучения и становится наилучшей практикой в ​​типичных реальных приложениях искусственных сетей.

[3] Процессор Intel Core i9-7960X работает на турбо скоростях 4,2 ГГц, тогда как стандартное вещание с фиксированным спутником составляет 41 ГГц.

[4] Тепловой шум может быть получен на кремнии путем усиления и фильтрации утечки электронов через обратные смещенные стабилитроны в его лавинной точке. Источником квантовых явлений является тепловой шум Джонсона – Найквиста. Sanguinetti et. и др. в «Квантовом генерации случайных чисел на мобильном телефоне» (2014 г.) говорится: «Детектор может быть смоделирован как канал с потерями с вероятностью передачи η, за которым следует фотон-электронный преобразователь с удельной эффективностью ... измеренное распределение будет быть комбинацией квантовой неопределенности и технического шума ", и есть работа CalTech JTWPA. Оба из них могут стать стандартами для создания действительно недетерминированного квантового шума в интегральных схемах.

Ссылки


1
Я бы сказал, что вы на что-то. Прилагаются некоторые усилия, чтобы внедрить AI в аналоговые чипы (думаю, Apple может что-то делать с iphone). Я не уверен, сколько исследований было сделано, но я уверен, что вы можете найти где-нибудь белую книгу. Это определенно стоит исследовать. Мой прогноз состоит в том, что скоро могут появиться программируемые микросхемы ИИ, которые будут иметь заданное количество входов и выходов (вроде как шинные регистры).
Закк Диаз

Это не полный ответ, но я подозреваю, что главная проблема - стоимость. Печатные схемы очень дешевы в масштабе, и все еще довольно дороги в маленьких партиях. Дискретные графические процессоры уже массово выпускаются и работают "достаточно хорошо". Аналоговый чип обычно может хорошо выполнять только одну задачу, и предпочтительные модели быстро меняются. Дискретный чип может быть запрограммирован на множество разных вещей. Если мы найдем «лучшую» топологию для ANN, возможно, будет иметь смысл снова делать аналоговые чипы.
Джон Дусетт

1
Вау. Мой первый день на этом сайте, и я нашел кого-то, кто разделяет мою мысль. :-D

Ответы:


6

Я думаю, что есть разные причины. Прежде всего: гибкость. С современными процессорами и графическими процессорами вы можете создать практически любую модель ИИ любого размера и сложности. Как вы можете быть уверены, что модель, которую вы используете в настоящее время, все еще пригодна через несколько лет? Может быть, в ближайшие несколько лет произойдет крупный прорыв в NN? Может быть, некоторые ученые считают, что есть способ лучше разработать ИИ, чем с NN, генетическими алгоритмами и т. Д. Нормальные чипы могут справиться со всем этим, и они могут справиться с этим достаточно хорошо. Но если вы хотите оптимизировать его и не беспокоиться о деньгах, вы можете разработать специализированную архитектуру (это уже делается разными компаниями, что дает значительный прирост скорости при выполнении конкретных задач).

Причина вторая: массовое производство. Я имею в виду, что компании могут в конечном итоге производить высокоинтегрированные аналоговые AI-компоненты (скажем, например, NN-чипы). Но это было бы больше инвестиций. Довольно неясно, могут ли устройства, которые являются достаточно гибкими, чтобы стать серьезной аппаратной альтернативой искусственного интеллекта, легко производиться в массовом производстве, которое может конкурировать с процессорами и графическими процессорами. Особенно последние сильно оптимизированы для выполнения массивных параллельных вычислений. И, если вы наблюдаете за развитием архитектур, похожих на GPU (умеющих делать несколько вещей, но очень хорошо), которые дополнительно оптимизированы для машинного обучения, вы увидите, что это будет сложная конкуренция для аналоговых устройств.

Все вышеперечисленное не означает, что в этой области нет исследований. Есть несколько экспериментов, которые пытаются это заархивировать, но они еще не «опасны» для обычных архитектур. В конце концов, они придут в будущем, когда мы лучше поймем ИИ и интеллект и просто пытаемся подправить, но я довольно скептически к этому отношусь.

РЕДАКТИРОВАТЬ: Кроме того, что-то, что также относится к гибкости: вы можете лучше экспериментировать с алгоритмами ИИ, работающими на «нормальном» цифровом оборудовании. Например, вы можете легко проверить NN в определенных местах, вы можете быстро изменить входные данные или предоставить альтернативные, вы действительно ни к чему не привязаны. И так как мы до сих пор не знаем или не понимаем каждую модель полностью, когда использовать которую, если есть лучшие архитектуры для определенной задачи и т. Д., Не имеет смысла помещать что-то «молодое» и «экспериментальное» в фиксированный аналог архитектура.


Несмотря на то, что экономия от масштаба (объем производства) в настоящее время отдает предпочтение цифровым технологиям, в 1980-х годах этого не произошло, а в 2040-е годы этого не произошло. Аналог дешевле на транзисторе. В ядре CUDA имеется 128 000 транзисторов на один поток и только 40 транзисторов в мультиплексированном операционном усилителе. Что еще более важно, вопрос теоретический - что имеет больше технологического смысла, а не то, что экономично в текущем состоянии экономики СБИС. Если за последние 100 лет мы увидели какую-то закономерность в технологиях, то, что сегодняшняя норма - это музейный экспонат завтрашнего дня. - Чтение требований о вознаграждении может помочь.
FauChristian

Но разве это не похоже на этот сценарий? Массовое развитие этого оборудования СЕЙЧАС не имело бы смысла экономичным, но не технологичным. Мы просто не знаем достаточно.
Бен

Если «мы» - членство в AI Stack Exchange, существует сильная тенденция ко всему, что уже реализовано в популярных библиотеках Python. Но правительства и крупные корпорации, похоже, также заинтересованы в создании сетей и аналоговых СБИС, например, ВВС США и Intel. Лаборатории робототехники стремятся к аналогам, и исследователи нейрокогнитивных систем считают, что ИНС не достойны середины Н. Реальные нейроны в тысячи раз сложнее, чем функция РЛУ. Неясно, что станет доминирующим для того или иного приложения, но это не то же самое, что не знать достаточно для обсуждения вариантов.
FauChristian

Возможно, вы прочитали слово «чистый» в вопросе. Ни одно из текущих исследований не предлагает чистый аналог с циферблатами вместо клавиатур и ЭЛТ вместо ЖК-дисплеев. Все недавние предложения в литературе и в активной разработке СБИС следуют хорошо понятной парадигме: имитировать программируемый (не фиксированный) аналог, который может изучать программу как цифровые искусственные сети, а затем реализовывать в кремнии, не удаляя программируемость или обучающую способность. Сигналы реального времени могут быть аналоговыми, цифровыми или обоими, но общий контроль чипа является цифровым, как с GPU или DSP.
FauChristian

Период щедрости скоро закончится, и вопрос о том, имеет ли смысл аналоговое обучение, поскольку оно может извлечь выгоду из легкодоступного квантового шума, пока не рассматривается в этом ответе. Прогноз не был указан в вопросе. Кроме того, огромный бюджет, который, кажется, нацелен на аналоговое вычисление персептронов, свертки и пиковых сетей, может очень хорошо преобладать, но только если рациональная долгосрочная жизнеспособность. Таким образом, вопрос.
Фаучристиан

6

Быстрый ответ

Когда Intel приобрела Nirvana, они выразили уверенность в том, что аналог VLSI найдет свое место в нейроморфных чипах ближайшего будущего 1, 2, 3 .

Было ли это из-за способности более легко эксплуатировать естественный квантовый шум в аналоговых схемах, пока не известно. Это более вероятно из-за количества и сложности функций параллельной активации, которые могут быть упакованы в один чип VLSI. Аналоговый имеет преимущество на несколько порядков над цифровым в этом отношении.

Для участников AI Stack Exchange, вероятно, будет полезно быстро освоить эту четко обозначенную эволюцию технологии.

Важные тренды и нетенденции в искусственном интеллекте

Чтобы с научной точки зрения подойти к этому вопросу, лучше всего сопоставить теорию аналоговых и цифровых сигналов без смещения тенденций.

Энтузиасты искусственного интеллекта могут найти в Интернете много информации о глубоком обучении, извлечении функций, распознавании изображений и библиотеках программного обеспечения для загрузки и немедленного начала экспериментов. Это способ, с помощью которого большинство людей становятся мокрыми от этой технологии, но быстрое введение в ИИ имеет и обратную сторону.

Когда теоретические основы раннего успешного развертывания ИИ, ориентированного на потребителя, не поняты, возникают предположения, которые противоречат этим основам. Важные параметры, такие как аналоговые искусственные нейроны, шипованные сети и обратная связь в реальном времени, упускаются из виду. Улучшение форм, возможностей и надежности поставлено под угрозу.

Энтузиазм в развитии технологий всегда должен сдерживаться, по крайней мере, в равной мере рациональным мышлением.

Конвергенция и стабильность

В системе, где точность и стабильность достигаются с помощью обратной связи, как аналоговые, так и цифровые значения сигналов всегда являются просто оценками.

  • Цифровые значения в сходящемся алгоритме или, точнее, в стратегии, предназначенной для сближения
  • Значения аналогового сигнала в стабильной схеме операционного усилителя

Понимание параллели между сходимостью посредством исправления ошибок в цифровом алгоритме и стабильностью, достигаемой с помощью обратной связи в аналоговых измерительных приборах, важно для обдумывания этого вопроса. Это параллели, использующие современный жаргон, с цифровым слева и аналоговым справа.

┌───────────────────────────────┬───────────────── ─────────────┐
Digital * Цифровые искусственные сети * │ * Аналоговые искусственные сети * │
├───────────────────────────────┼───────────────── ─────────────┤
│ прямое распространение │ первичный путь прохождения сигнала │
├───────────────────────────────┼───────────────── ─────────────┤
│ функция ошибок │ функция ошибок │
├───────────────────────────────┼───────────────── ─────────────┤
│ сходящийся │ стабильный ble
├───────────────────────────────┼───────────────── ─────────────┤
│ Насыщенность градиента │ Насыщенность на входах │
├───────────────────────────────┼───────────────── ─────────────┤
Function Функция активации │ Функция прямой передачи │
└───────────────────────────────┴───────────────── ─────────────┘

Популярность цифровых схем

Основным фактором роста популярности цифровых схем является сдерживание шума. Современные цифровые схемы VLSI имеют длительное среднее время до отказа (среднее время между случаями, когда встречается неправильное битовое значение).

Виртуальное устранение шумов дало цифровым схемам существенное преимущество перед аналоговыми схемами для измерений, ПИД-регулирования, расчетов и других приложений. С помощью цифровых схем можно измерять точность до пяти десятичных цифр, контролировать с замечательной точностью и вычислять от π до тысячи десятичных цифр с высокой точностью, повторяемостью и надежностью.

В основном это были бюджеты на аэронавтику, оборону, баллистику и контрмеры, которые повысили спрос на производство для достижения эффекта масштаба в производстве цифровых схем. В настоящее время спрос на разрешение экрана и скорость рендеринга способствует использованию графического процессора в качестве процессора цифровых сигналов.

Являются ли эти в значительной степени экономические факторы причиной выбора наилучшего дизайна? Являются ли искусственные сети на цифровой основе лучшим использованием дорогой недвижимости СБИС? Это проблема этого вопроса, и это хороший вопрос.

Реалии сложности IC

Как упоминалось в комментарии, для реализации в кремнии независимого многоразового искусственного нейрона многократного использования требуются десятки тысяч транзисторов. Во многом это связано с умножением векторной матрицы на каждый уровень активации. Требуется всего несколько десятков транзисторов на один искусственный нейрон для реализации умножения векторной матрицы и набора операционных усилителей слоя. Операционные усилители могут быть спроектированы для выполнения таких функций, как бинарный шаг, сигмоид, софт плюс, ELU и ISRLU.

Цифровой сигнал шума от округления

Цифровая сигнализация не свободна от шума, потому что большинство цифровых сигналов округлены и, следовательно, являются приблизительными. Насыщенность сигнала при обратном распространении сначала появляется как цифровой шум, генерируемый из этого приближения. Дальнейшее насыщение происходит, когда сигнал всегда округляется до одного и того же двоичного представления.

vеКNN

vзнак равноΣNзнак равно0N1N2К+е+N-N

Программисты иногда сталкиваются с эффектами округления в числах с плавающей запятой IEEE двойной или одинарной точности, когда ответы, которые ожидаются равными 0,2, отображаются как 0.20000000000001. Одна пятая не может быть представлена ​​с идеальной точностью в виде двоичного числа, потому что 5 не является фактором 2.

Наука над медиа ажиотаж и популярные тенденции

Езнак равномс2

В машинном обучении, как и во многих технологических продуктах, существует четыре ключевых показателя качества.

  • Эффективность (которая определяет скорость и экономичность использования)
  • надежность
  • точность
  • Понятность (которая определяет ремонтопригодность)

Иногда, но не всегда, достижение одного компрометирует другого, и в этом случае должен быть достигнут баланс. Градиентный спуск - это стратегия конвергенции, которая может быть реализована в цифровом алгоритме, который хорошо уравновешивает эти четыре, поэтому она является доминирующей стратегией в многослойном обучении персептрону и во многих глубоких сетях.

Эти четыре вещи были центральными в ранней работе Норберта Винера по кибернетике до появления первых цифровых схем в Bell Labs или первого триггера, реализованного с помощью вакуумных ламп. Термин кибернетика происходит от греческого κυβερνήτης (произносится как kyvernítis ), означающего рулевого, где руль и паруса должны были компенсировать постоянно меняющийся ветер и течение, а судно должно было сходиться в предполагаемом порту или гавани.

Взгляд на этот вопрос, основанный на тенденциях, может окружать идею о том, можно ли реализовать VLSI для достижения эффекта масштаба для аналоговых сетей, но критерий, заданный его автором, состоит в том, чтобы избегать представлений, основанных на тенденциях. Даже если бы это было не так, как упоминалось выше, для создания искусственных сетевых уровней с аналоговой схемой требуется значительно меньше транзисторов, чем с цифровыми. По этой причине правомерно ответить на вопрос, предполагая, что аналог СБИС вполне выполним при разумных затратах, если бы внимание было направлено на его выполнение.

Проектирование аналоговых искусственных сетей

Аналоговые искусственные сети исследуются во всем мире, в том числе совместное предприятие IBM / MIT, Intel Nirvana, Google, ВВС США еще в 1992 году 5 , Tesla и многие другие, некоторые из которых указаны в комментариях и дополнении к этому. вопрос.

Интерес к аналогу для искусственных сетей связан с количеством функций параллельной активации, участвующих в обучении, которые могут поместиться в квадратный миллиметр площади микросхемы СБИС. Это во многом зависит от того, сколько транзисторов требуется. Матрицы ослабления (матрицы параметров обучения) 4 требуют умножения векторной матрицы, что требует большого количества транзисторов и, следовательно, значительной части СБИС.

В базовой многослойной сети персептрона должно быть пять независимых функциональных компонентов, чтобы она была доступна для полностью параллельного обучения.

  1. Векторно-матричное умножение, которое параметризует амплитуду прямого распространения между функциями активации каждого слоя
  2. Сохранение параметров
  3. Функции активации для каждого слоя
  4. Сохранение выходных данных уровня активации для применения в обратном распространении
  5. Производная функций активации для каждого слоя

В аналоговых схемах с большим параллелизмом, присущим методу передачи сигналов, 2 и 4 могут не потребоваться. Теория обратной связи и гармонический анализ будут применяться к проектированию схемы с использованием симулятора, такого как Spice.

спс(р)р(T,с)Tяявеся τпτaτd

сзнак равноспс(р(T,с)dT)(Σязнак равно0я-2(τпвесявеся-1+τaвеся+τdвеся)+τaвеся-1+τdвеся-1)

Для общих значений этих схем в современных аналоговых интегральных схемах мы имеем стоимость аналоговых микросхем СБИС, которая со временем сходится к значению, по крайней мере, на три порядка ниже, чем у цифровых микросхем с эквивалентным обучающим параллелизмом.

Непосредственная адресация шумовой инъекции

Вопрос гласит: «Мы используем градиенты (якобиан) или модели второй степени (гессиан) для оценки следующих шагов в сходящемся алгоритме и намеренно добавляем шум [или] вводим псевдослучайные возмущения для повышения надежности сходимости, выпрыгивая из локальных скважин в ошибке поверхность во время схождения. "

Причина, по которой псевдослучайный шум вводится в алгоритм конвергенции во время обучения и в реентерабельных сетях в реальном времени (таких как сети усиления), заключается в существовании локальных минимумов на поверхности диспаратности (ошибки), которые не являются глобальными минимумами этого поверхность. Глобальные минимумы - это оптимальное обученное состояние искусственной сети. Локальные минимумы могут быть далеко не оптимальными.

Эта поверхность иллюстрирует функцию ошибок параметров (два в этом очень упрощенном случае 6 ) и проблему локальных минимумов, скрывающих существование глобальных минимумов. Нижние точки на поверхности представляют минимумы в критических точках локальных областей оптимальной обучающей конвергенции. 7,8

Поверхность ошибки, показывающая, как глобальный оптимум может быть пропущен

Функции ошибок - это просто мера несоответствия между текущим состоянием сети во время обучения и желаемым состоянием сети. Во время обучения искусственным сетям цель состоит в том, чтобы найти глобальный минимум этого неравенства. Такая поверхность существует независимо от того, помечены или нет метки данных образца, а также является ли критерий завершения обучения внутренним или внешним по отношению к искусственной сети.

Если скорость обучения мала, а начальное состояние находится в начале пространства параметров, сходимость с использованием градиентного спуска будет сходиться к самой левой лунке, которая является локальным минимумом, а не глобальным минимумом справа.

Даже если эксперты, инициализирующие искусственную сеть для обучения, достаточно умны, чтобы выбрать среднюю точку между двумя минимумами, градиент в этой точке все еще наклоняется к левому минимуму, и сходимость достигнет неоптимального состояния обучения. Если оптимальность обучения является критической, что часто бывает, обучение не сможет достичь качественных результатов производства.

Одно из используемых решений состоит в том, чтобы добавить энтропию к процессу сходимости, который часто представляет собой просто введение ослабленного выходного сигнала генератора псевдослучайных чисел. Другое реже используемое решение состоит в том, чтобы ветвить процесс обучения и попробовать ввести большое количество энтропии во второй конвергентный процесс, так что параллельно выполняется консервативный поиск и несколько дикий поиск.

Это правда, что квантовые шумы в чрезвычайно малых аналоговых цепях имеют большую однородность спектра сигнала по своей энтропии, чем цифровой псевдослучайный генератор, и для достижения шума более высокого качества требуется гораздо меньше транзисторов. Были ли преодолены проблемы, связанные с этим в реализациях СБИС, еще предстоит выяснить исследовательским лабораториям, работающим в правительствах и корпорациях.

  • Будут ли такие стохастические элементы, используемые для введения измеренных величин случайности, для повышения скорости и надежности тренировки, быть адекватно невосприимчивыми к внешним шумам во время тренировки?
  • Будут ли они достаточно защищены от внутренних перекрестных помех?
  • Возникнет ли спрос, который снизит стоимость производства СБИС в достаточной степени, чтобы достичь точки более широкого использования за пределами высоко финансируемых исследовательских предприятий?

Все три проблемы правдоподобны. Что несомненно, а также очень интересно, так это то, как разработчики и производители облегчают цифровое управление путями аналогового сигнала и функциями активации для достижения высокоскоростного обучения.

Сноски

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticst Saturday.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Под ослаблением понимается умножение выходного сигнала от одного срабатывания на обучаемый измеритель, чтобы обеспечить суммирование с другими для ввода для активации следующего уровня. Хотя это физический термин, он часто используется в электротехнике и является подходящим термином для описания функции умножения векторной матрицы, которая достигает того, что в менее образованных кругах называется взвешиванием входных данных слоя.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] В искусственных сетях существует намного больше двух параметров, но только два изображены на этом рисунке, потому что график может быть понятен только в 3-D, и нам нужно одно из трех измерений для значения функции ошибки.

[7] Определение поверхности: Zзнак равно(Икс-2)2+(Y-2)2+60-401+(Y-1,1)2+(Икс-0.9)2-40(1+((Y-2,2)2+(Икс-3,1)2)4)

[8] Связанные команды gnuplot:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

4

Цифровая аппаратура аналоговых ячеек

Одна из ключевых проблем в аналоговых искусственных сетях заключается в том, что сетевое оборудование будет наиболее практичным, если оно будет цифровым. Любая реализация VLSI аналоговых персептронов, сверток или пиковых сетей, вероятно, должна иметь цифровые компоненты в гибридном расположении для нескольких функций.

  • Показатели здоровья
  • Индикаторы неисправности
  • Архив и поиск изученных параметров 1
  • Общий контроль системы
  • Установка гиперпараметров
  • Оперативная статистика
  • Самоанализ для разработки и отладки
  • Контрольные точки
  • контролируемости

Это означает, что реализация аналоговой искусственной обучающей сети общего назначения потребует преобразования A-D и D-A-A. 2 Тогда проблемой проектирования СБИС становится предотвращение создания транзисторов из-за введения большого количества блоков преобразования. Такое могло бы победить преимущество плотности аналоговой реализации прямого и обратного распространения.

Вероятное решение состоит в том, чтобы использовать запирающую матрицу для распределения сигналов от цифро-аналоговых преобразователей на конденсаторы и матрицу переключения с малой утечкой, чтобы выбрать, какое значение будет считываться аналого-цифровыми преобразователями. Это должно быть сделано без введения цифрового шума в аналоговые тракты и без ухудшения сохраненных зарядов или потери точности при их зарядке.

Насколько значительным может быть количество дополнительных транзисторов и маршрутов в цепи вне первичной сети, можно узнать только с помощью процесса проектирования СБИС.

Важные вклады с открытым исходным кодом

В феврале 2018 года Массачусетский университет представил репозиторий 3,4 с открытым исходным кодом BindsNet . Он имитирует аналоговые сети с цифровым программным и аппаратным обеспечением и использует ускорение GPU через PyTorch.

Это облегчает сегодняшние эксперименты по разработке сетей и стратегий. Успех использования моделирования, если он будет достаточно значительным, скорее всего, приведет к созданию превосходных конструкций СБИС.


Сноски

[1] В любой практической системе обучения изученные параметры должны быть извлечены из реализации VLSI, сохранены в базе данных и предоставлены любому количеству систем разработки, тестирования, UAT или производственных систем для развертывания, анализа первопричин ошибок, масштабирования и аварийное восстановление. Сохранение и загрузка должны быть основной характеристикой гибридных аналоговых искусственных сетей VLSI, даже между эпохами во время обучения и во время фактического использования в полевых условиях.

[2] Нельзя бесконечно удерживать изученное состояние искусственной сети в конденсаторах. Хотя конденсаторы стали доминирующим пассивным компонентом для аналоговых схем, разработанных в стандартных процессах CMOS, они не могут иметь большую емкость, и утечка не равна нулю. Период полураспада емкостных накопительных цепей и требуемая точность значений параметров будут определять скорость цикла чтения и условного повторного обновления.

[3] Хранилище с открытым исходным кодом BindsNet

[4] BindsNET [статья]: библиотека нейронных сетей, ориентированных на машинное обучение, в Python для публикации тезисов из Гарвардского университета в статье BindsNet.


4

Я удивлен, что никто не упомянул некоторые конкретные направления исследований в области аналогового ИИ. А также, чтобы уточнить, искусственный интеллект не совсем то же самое, что машинное обучение, как это предполагает ответ . Последние достижения в области аналоговых вычислений были только в области машинного обучения.

Аналоговая CMOS:

Прежде всего, давайте поговорим о самых ранних аналоговых реализациях нейронов. Доктор Джакомо Индивери и др. Были немногими пионерами в этой области. Хотя с помощью CMOS-логики вы можете создавать всплывшие нейронные сети с STDP (Spike Time Dependent Plasticity), это трудно использовать в алгоритмах машинного обучения. Человеческий мозг еще предстоит полностью понять, особенно то, как он передает сложную информацию с шипами. Сети с шипами хорошо справляются с сравнительно небольшими задачами по распознаванию изображений и малой сложности (большинство статей, похоже, больше заботятся о повышении производительности, чем о применении к очень сложным задачам). Из-за большого количества доступных транзисторов мы могли бы использовать его в сложных задачах.

Лучший пример - Google использует эту идею низкой точности в TPU и компенсирует точность, используя огромное количество единиц обработки, что вызывает некоторый компромисс между временем, точностью и областью. Это может быть аналогом огромного количества транзисторов в процессоре, хотя и с низкой точностью. ( Углубленный взгляд на первое устройство Tensor Processing Google (TPU) )

ПРИМЕЧАНИЕ. Некоторые могут утверждать, что технология CMOS подпадает под цифровую область, но поскольку мы здесь не используем CMOS специально для выполнения каких-либо цифровых операций, мне нравится думать о ней как о аналоговой.

Задачи на основе Spike, по-видимому, весьма хороши для сетей Winner Take All (вроде самоорганизующихся карт ), поэтому это общий способ реализации алгоритмов машинного обучения в микросхемах VLSI.

Сети на основе Spike не имеют идеальной памяти, вы не можете иметь веса с высокой точностью. Они предложили реализовать биологические веса или синапсы или память с использованием конденсаторов, но, очевидно, он сталкивается с проблемами, похожими на обычные кремниевые чипы, такими как утечка заряда, а также из-за других неидеальностей на основе кремния, и, как я понял, они также могут моделировать ограниченные веса ( как -1, 0, 1).

Цифровые вычисления:

Здесь идут цифровые вычисления. Задачи, которые требуют большого количества представлений с плавающей запятой, не могут быть просто реализованы с помощью спайков, поскольку мы еще не знаем или даже не можем полностью имитировать биофизические или какие-либо аспекты истинного нейрона в этом отношении. Цифровые вычисления просто помогают передавать больше информации с той точностью, которая нам нравится (если мы проектируем такой процессор). Хотя узкие места являются известным недостатком архитектуры фон Неймана для цифровых вычислений, это не такая большая проблема, как представление информации с помощью всплесков. Шипы всегда имеют фиксированную величину, единственный способ, которым она, вероятно, передает информацию, - это ее частота и знак (возбуждающий или сдерживающий). Также тактовые частоты довольно высоки в современных компьютерах.

Мемристоры: новое направление

Здесь появляется самое последнее изобретение, Мемристор . На сегодняшний день это самое перспективное аналоговое устройство в машинном обучении. Мемристоры - это очень новая концепция, предсказанная в 70-х годах и выпущенная только в 2008 году. В основном это RRAM или резистивная RAM. При этом сопротивление резистора памяти или мемристора напрямую связан с прошлой текущей историей, которая очень похожа на биофизические модели нейрона. Их также можно легко обучить, используя массивы ригелей (в основном матрицы электрических контактов) мемристоров (ригельные массивы будут представлять матрицы весов, напряжение, приложенное вдоль рядов или вдоль столбцов, определяет прямое или обратное распространение).

Таким образом, Memristor дает реальный аналог алгоритмов машинного обучения. К сожалению, из-за его недавнего прибытия есть много проблем, которые еще предстоит решить.

  • Мемристоры могут разлагаться довольно быстро, то есть они имеют ограниченные тренировочные циклы.
  • Мемристоры вносят много шума, что, по-видимому, не помогает при регуляризации, как мог бы подумать инженер ML.
  • Экзотические элементы, необходимые для этого (TяО2 и ЧАСеО2) пользователи Memristors в академических кругах очень ограничены. Но несколько лабораторий, работающих в этой области:

Научно-исследовательская лаборатория наноэлектроники, Университет Пердью

Электрохимические материалы, ETH Zurich

Проект "Человеческий мозг"

Институт Мозга, Мозга, Поведения и Развития

Нейроморфная фотоника:

В последнее время появился интерес к области нейроморфной фотоники. Вот небольшая статья на эту же тему. Я не знаком с внутренней работой того же самого, но AFAIK это включает передачу информации в оптической форме в пределах самого чипа обработки. Это приводит к некоторым преимуществам по сравнению с обычными аналоговыми или цифровыми цепями:

  • Более быстрая обработка информации.
  • Более высокая плотность информации.
  • Лучшая точность данных благодаря очень меньшим потерям.

Примечание: некоторые из моих наблюдений основаны на фактах, в то время как некоторые основаны исключительно на памяти, поэтому я могу ошибаться (так как я новичок в этой области). Не стесняйтесь указывать на ошибки.
DuttaA

2

Я полагаю, что большинство людей ответили на вопрос очень усердно в действительно информативной форме. Я просто хотел бы сказать, что мы часто используем цифровые схемы, потому что это существующая технология, и что аналоговые схемы, безусловно, кажутся действительно перспективными.

Однако на данный момент эта идея не очень развита, несмотря на объем исследований, проведенных в последние годы. До сих пор ни одна компания не пыталась реализовать идею на коммерческом уровне, где они производят такие чипы для использования вне своих лабораторий.

Кроме того, эта идея ощущается как новый подход и имеет большой потенциал.

Но с нашим отсутствием понимания о том, как работают некоторые модели, у некоторых просто нет проблем; как нейронные сети действительно решают такие сложные проблемы и многое другое. Поэтому это все еще довольно отдаленная технология, чтобы полностью реализовать свой потенциал.

PS Я все еще новичок в этой области и думаю, что мое мнение не считается, поэтому, если я был излишним или не смог дать вам ожидаемого ответа, я искренне сожалею об этом.


Этот ответ показывает мысль. Также верно, что существующая технология не показывает такой большой прогресс в программируемых аналоговых СБИС, как цифровые. ... Что неизвестно, так это результаты исследований и разработок аналогового управления ВМС США и DARPA, которые финансировались десятилетиями. Только первоначальные документы были рассекречены. МБР и технология контрмер могут быть аналоговыми интеллектуальными схемами в диапазоне 100 ГГц. Или не. ... Ваше письмо не было ни лишним, ни наивным. Конечно, в открытом исходном коде эти технологии только начинают появляться. Хороший ответ. Не стесняйтесь оставить это как есть или развивать это далее.
FauChristian

2

Можно также подойти к вопросу с точки зрения теории информации:

Есть два компромисса на выбор:

Аналоговая информация, которая может представлять информацию более точным / конкретным образом, но ограничена по количеству.

Цифровая информация, которая не полностью отражает реальный мир, но может содержать неограниченное количество информации в течение нескольких бит. Хорошим примером может быть что-то вроде увеличения цикла:

i = 0
while True:
   print(i)
   i += 1

Какой из них более мощный тогда?


Это вообще правда. Подумайте, что это значит для обучения в контексте ИИ. Мы моделировали различные виды обучения в машинах через системы правил с мета-правилами, искусственными сетями, расширениями цепочки Маркова, нечеткой логикой и множеством других методов и архитектур. Когда происходит обучение, существует какое-то оптимальное поведение, которое оно пытается приобрести. Как аналоговые или цифровые системы могут сходиться или отслеживать (в режиме реального времени) такое оптимальное поведение, и которое имеет долгосрочное преимущество?
FauChristian

1

Хава Зигельманн

На первый взгляд аналоговые вычисления превосходят цифровые. Квантовые компьютеры работают быстрее, чем компьютеры Von-Neumann, а нейроморфные чипы требуют меньше энергии, чем процессоры Intel. Также с теоретической точки зрения многие говорят за аналоговые компьютеры. Хава Зигельманн исследовал возможность супер-тьюринга нейронной сети, что означает, что аналоговый компьютер может эмулировать цифровой, но не наоборот. Так почему бы нам не использовать аналоговые вычисления?

Стивен Вольфрам

Причина связана с системой образования. Классическая математика, которая преподается в школах, является аналогом математики. Он основан на правилах скольжения, логарифмической таблице и мышлении в цепях. Напротив, мышление в дискретных значениях алгоритма и описание мира в нуле и единицах принципиально отличается и приводит нас к новому виду математики. Стивен Вольфрам объяснил, что понимание клеточных автоматов является важным шагом для описания Вселенной, и он прав. Игнорирование аналоговой математики и предпочтение компьютерным языкам, пригодным для тьюринга, - это мощный метод в образовании. Это помогает не только познакомиться с компьютерами, но и со всеми другими вещами, такими как медицина, литература и экономика. Даже если аналоговые машины имеют техническое превосходство, мы должны предпочесть медленные, но дискретные машины Тьюринга,

Преподавание математики

Чтобы понять разницу между цифровыми и аналоговыми вычислениями, мы должны сосредоточиться на самой математике, которая используется в школах. Если идея состоит в том, чтобы продвигать аналоговые вычисления вперед, соответствующий вид математики группируется вокруг электрических полей, интеграции и дифференциации. В школах это преподается под общим термином «Математический анализ». Эта тема была очень важной в прошлом, потому что анализ помогает строить мосты, машины и автомобили. Во всех этих областях используется векторная алгебра для описания геометрического пространства.

Если аналоговые вычисления настолько мощны, зачем кому-то нужна цифровая математика? Это связано с алгоритмом. Планиметр и дифференциальный анализатор не могут предложить возможности программирования. Невозможно определить алгоритмы и искусственные языки. Взгляд на историю математики показывает, что теория алгоритмов в прошлом была не слишком распространена. В современной математике это обсуждается под термином лямбда-исчисление и проблема Халтинга .

Самое смешное, что на первый взгляд исчисление Ламды не имеет практического применения. Это не нужно, если кто-то хочет рассчитать площадь моста. Теория алгоритмов - это школа мысли для улучшения критического мышления. Эта философия нужна людям, а не машинам.


Приятно, что вы упомянули Зигельманна. Второй абзац трудно понять логически. Конечно, образование является центральным в этом вопросе, а секвенирование ДНК и цифровая визуализация определенно улучшили медицину. Можете ли вы рассказать, как улучшилась литература? Некоторые утверждают, что цифровые вычисления ухудшили волатильность экономики, но более важны для требований к вознаграждениям, поэтому любой человек предпочел бы медленное дискретное, а не быстрое непрерывное, не следует из заявления Вольфрама. Также нет ссылки на утверждение. Можете ли вы предоставить ссылку и предоставить недостающую логику?
FauChristian
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.