Какие модели могут заменить нейронные сети в ближайшем будущем?


10

Существуют ли возможные модели, которые могут заменить нейронные сети в ближайшем будущем?

И нужно ли это вообще? Что самое плохое в использовании нейронных сетей с точки зрения эффективности?

Ответы:


4

Это идет в обратном направлении, но это отчасти следует логике аргументов.

С точки зрения эффективности, я вижу несколько серьезных проблем с классическими нейронными сетями.

Сбор данных и накладные расходы на предварительную обработку

Большие нейронные сети требуют много данных для обучения. Сумма может варьироваться в зависимости от размера сети и сложности задачи, но, как правило, она пропорциональна количеству весов. Для некоторых контролируемых учебных задач просто недостаточно качественных помеченных данных. Сбор большого количества данных специальной подготовки может занять месяцы или даже годы, а маркировка может быть громоздкой и ненадежной. Это может быть частично смягчено увеличением данных, что означает «синтез» большего количества примеров из тех, которые у вас уже есть, но это не панацея.

Время тренировки против энергетического баланса

Скорость обучения, как правило, довольно мала, поэтому процесс обучения идет медленно. Большую модель, которая может занять несколько недель для обучения на настольном процессоре, можно обучить, скажем, за два часа, используя кластер GPU, который потребляет несколько киловатт энергии. Это фундаментальный компромисс из-за характера процедуры обучения. Тем не менее, графические процессоры становятся все более эффективными - например, новая архитектура GPU nVidia Volta допускает 15,7 TFLOP при потреблении менее 300 Вт.

Non-transferrability

В настоящее время практически каждая отдельная проблема требует разработки, обучения и развертывания настраиваемой нейронной сети. В то время как решение часто работает, это своего рода заперли в эту проблему. Например, AlphaGo великолепен в Go, но он будет безнадежен при управлении автомобилем или предоставлении музыкальных рекомендаций - он просто не предназначен для таких задач. Эта подавляющая избыточность, на мой взгляд, является серьезным недостатком нейронных сетей, а также серьезным препятствием на пути развития нейронных сетей в целом. Существует целая область исследований, которая называется трансферным обучением.который занимается поиском способов применения сети, обученной одной задаче, к другой задаче. Часто это связано с тем, что для второй задачи может быть недостаточно данных для обучения сети с нуля, поэтому возможность использовать предварительно обученную модель с некоторой дополнительной настройкой очень привлекательна.


Первая часть вопроса более сложная. Оставляя в стороне чисто статистические модели, я не видел ни одного выдающегося подхода к машинному обучению, который бы радикально отличался от нейронных сетей. Тем не менее, есть некоторые интересные разработки, о которых стоит упомянуть, поскольку они направлены на устранение некоторых из перечисленных выше недостатков.

Нейроморфные чипсы

Сначала немного предыстории.

Всплеск нейронных сетей имеет огромный потенциал с точки зрения вычислительной мощности. Фактически, было доказано, что они строго более мощные, чем классические нейронные сети с сигмовидной активацией.

В добавок к этому, всплывшие нейронные сети обладают внутренним пониманием времени, что является серьезным препятствием для классических сетей с момента их создания. Мало того, но шипящие сети управляются событиями , что означает, что нейроны работают только при наличии входящего сигнала. Это отличается от классических сетей, где каждый нейрон оценивается независимо от его входных данных (опять же, это всего лишь следствие процедуры оценки, обычно реализуемой как умножение двух плотных матриц). Таким образом, в разветвленных сетях используется разреженная схема кодирования, что означает, что в любой момент времени активна только небольшая часть нейронов.

Теперь разреженное основанное на скачках кодирование и управляемая событиями операция подходят для аппаратных реализаций скачкообразных сетей, называемых нейроморфными чипами . Например, чип IBM TrueNorth может имитировать 1 миллион нейронов и 256 миллионов соединений, потребляя в среднем всего около 100 мВт . Это на несколько порядков эффективнее, чем современные графические процессоры nVidia. Нейроморфные чипы могут быть решением проблемы компромисса между временем и энергией, о котором я говорил выше.

Кроме того, мемристоры являются относительно новым, но очень многообещающим развитием. По сути, мемристор - это элемент фундаментальной цепи, очень похожий на резистор, но с переменным сопротивлением, пропорциональным общему количеству тока, прошедшего через него в течение всего срока службы. По сути, это означает, что он сохраняет «память» о количестве тока, прошедшего через него. Одним из захватывающих потенциальных применений мемристоров является чрезвычайно эффективное моделирование синапсов в аппаратном обеспечении.

Усиление обучения и эволюции

Я думаю, что это стоит упомянуть, потому что они являются многообещающими кандидатами для решения проблемы непередачи. Они не ограничиваются нейронными сетями - будучи ориентированными на вознаграждение, RL и эволюция теоретически применимы в общих условиях к любой задаче, где можно определить вознаграждение или цель, которую должен достичь агент. Это не обязательно тривиально, но гораздо более универсально, чем обычный подход, основанный на ошибках, когда обучающий агент пытается минимизировать разницу между его результатами и истинностью. Основной момент здесь касается передачи обучения: в идеале, применение обученного агента для другой задачи должно быть таким же простым, как изменение цели или вознаграждения (хотя они еще не совсем на этом уровне ...).


«Строго более мощный», - пишет Маасс в своей статье 1996 года, однако он претендует на математическую строгость и не может определить вычислительную мощность. Кроме того, в 1996 году было написано, что функции активации сигмоида были популярны, чего они не имеют сейчас, именно потому, что они не сходятся для большого разнообразия сценариев так же надежно или быстро, как более простые функции активации. Маасс только дважды упоминает в статье о конвергенции и не указывает, как происходит конвергенция, еще раз подчеркивая отсутствие определения вычислительной мощности с точки зрения целей машинного обучения.
FauChristian

Связь между RL и эволюцией неясна. Вы имеете в виду какую-то комбинацию генетического алгоритма и RL? Если да, то какова ссылка?
FauChristian

@FauChristian Даже если вы не прочитали всю статью, определение вычислительных возможностей приводится в аннотации (второе предложение):In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
cantordust

Активации @FauChristian Sigmoid все еще очень живы и здоровы. Например, LSTM используют сигмоидные активации для ворот, softmax (нормализованные сигмоиды) по-прежнему лучшая вещь, которую мы имеем для мультиклассовой классификации и т. Д. «Более простые» активации не обязательно лучше - исходный ReLU ( max(0, x)) очень сильно в опасности застрять x < 0, в результате чего мертвые нейроны. В любом случае, речь идет о вычислительной мощности шипующих сетей и их ультраэффективной аппаратной реализации с точки зрения энергопотребления.
cantordust

@FauChristian Я не провожу параллели между RL и эволюцией. Я привожу их в качестве примеров многообещающих подходов для решения определенного типа неэффективности, а именно, необходимости ручной разработки решения (будь то NN или что-то еще) для каждой отдельной проблемы, которая у вас есть. В идеале вы должны быть в состоянии разработать универсальный решатель, который автоматически настраивается RL и / или эволюцией для конкретной проблемы, основываясь исключительно на цели высокого уровня.
cantordust

1

Замена нейронных сетей

Могут существовать новые алгоритмы, которые могут заменить нейронные сети. Однако одной из характеристик нейронных сетей является то, что в них используются простые элементы, каждый из которых требует небольших вычислительных ресурсов в геометрических узорах.

Искусственные нейроны могут быть запущены параллельно (без разделения процессорного времени или зацикливания), отображая вычисления на устройства DSP или другое оборудование для параллельных вычислений. То, что многие нейроны по сути одинаковы, является, таким образом, сильным преимуществом.

Что бы мы заменили?

Когда мы рассматриваем алгоритмические замены нейронных сетей, мы подразумеваем, что дизайн нейронной сети является алгоритмом. Не то.

Нейронная сеть - это подход к сближению в схеме реального времени для выполнения нелинейного преобразования входных данных в выходные, основанный на некоторой формулировке того, что является оптимальным. Такая формулировка может быть минимизацией меры ошибки или несоответствия некоторому определенному идеалу. Это может быть мерой хорошего самочувствия, которая должна быть максимальной.

Источник определения пригодности для любого данного поведения сети может быть внутренним. Мы называем это обучением без присмотра. Он может быть внешним, который мы называем контролируемым, когда внешняя информация о пригодности связана с входными векторами в форме желаемых выходных значений, которые мы называем метками.

Пригодность может также возникать извне как скаляр или вектор, не связанный с входными данными, а скорее в реальном времени, который мы называем подкреплением. Такое требует повторяющихся алгоритмов обучения. Чистая поведенческая приспособленность может альтернативно оцениваться другими сетями в системе, в случае суммированных сетей или других конфигураций, таких как лапласианские иерархии.

Выбор алгоритмов не имеет ничего общего со сравнительным интеллектом после выбора математических и технологических схем. Разработка алгоритма напрямую связана с минимизацией требований к вычислительным ресурсам и сокращением затрат времени. Эта минимизация зависит также от оборудования и операционной системы.

Указана ли замена?

Конечно. Было бы лучше, если бы сети были больше похожи на нейроны млекопитающих.

  • Сложность активации
  • Неоднородность схем соединений
  • Пластичность дизайна, поддержка метаадаптации
  • Регулируется многими аспектами региональной сигнализации

Под региональной передачей сигналов подразумевается множество химических сигналов, выходящих за пределы передачи сигналов через синапсы.

Мы можем даже рассмотреть выход за пределы неврологии млекопитающих.

  • Сочетание параметрического и гипотезы обучения
  • Изучение формы, используемой, когда микробы проходят ДНК

Эффективность нейронной сети

Эффективность не может быть определена количественно в некоторой универсальной шкале, поскольку температура может быть определена количественно в градусах Кельвина. Эффективность может быть количественно оценена как отношение некоторого измеренного значения к некоторому теоретическому идеалу. Обратите внимание, что это идеал, а не максимум в знаменателе. В термодинамических двигателях такой идеальной является скорость ввода энергии, которая никогда не может быть полностью передана на выход.

Точно так же нейронные сети никогда не могут учиться в нулевое время. Нейронная сеть также не может достичь нулевой ошибки за произвольно длительное время производства. Поэтому информация в некотором роде похожа на энергию, концепцию, исследованную Клодом Шенноном из Bell Labs на заре цифровой автоматизации, и связь между информационной энтропией и термодинамической энтропией в настоящее время является важной частью теоретической физики.

Не может быть плохой эффективности обучения или хорошей эффективности обучения. Не может быть ни плохой производительности, ни хорошей производительности, если мы хотим думать логически и с научной точки зрения - только относительное улучшение конфигурации системы по сравнению с другой конфигурацией системы для очень специфического набора сценариев производительности.

Следовательно, без однозначной спецификации двух конфигураций аппаратного обеспечения, операционной системы и программного обеспечения и полностью определенного набора тестов, используемых для относительной оценки, эффективность не имеет смысла.


1

У нас есть некоторая надежда, скрывающаяся на этом фронте. На данный момент у нас есть капсульные сети Дж. Хинтона, которые используют другую нелинейную активацию, называемую функцией «сквош».

  1. Хинтон называет максимальное объединение в CNN «большой ошибкой», поскольку CNN ищет только объекты присутствия на изображении, а не относительную ориентацию между ними. Таким образом, они теряют пространственную информацию, пытаясь достичь неизменности перевода.
  2. Нейронные сети имеют фиксированные связи, тогда как капсула в сети капсул «решает», какой другой капсуле она должна пройти свою активацию в течение каждой эпохи. Это называется «маршрутизация».
  3. Активация каждого нейрона в нейронных сетях является скаляром. Принимая во внимание, что активация капсулы - это вектор, фиксирующий позу и ориентацию объекта на изображении.
  4. CNN считаются плохими представлениями о зрительной системе человека. Под зрительной системой человека я имею в виду глаза и мозг / познание вместе. Мы могли бы идентифицировать Статую Свободы по любой позе, даже если бы мы смотрели на нее с одной позы. CNN в большинстве случаев не может обнаружить один и тот же объект в разных позах и ориентациях.

Сами капсульные сети имеют некоторые недостатки. Таким образом, была работа в направлении взгляда за пределы нейронных сетей. Вы можете прочитать этот блог для лучшего понимания, прежде чем читать статью Дж. Хинтона.


0

Нейронные сети требуют много данных и обучения. Для большинства наборов данных в табличном формате гораздо лучше использовать модели на основе дерева решений. В большинстве случаев простых моделей достаточно для обеспечения хорошей точности. Однако нейронные сети прошли проверку временем. Прошло всего пять-шесть лет с тех пор, как началась революция глубокого обучения, поэтому мы до сих пор не знаем истинную силу глубокого обучения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.