Экстремальная обучающая машина: что это такое?


20

Я думал о внедрении и использовании парадигмы Extreme Learning Machine (ELM) уже более года, и чем дольше я это делаю, тем больше сомневаюсь, что это действительно хорошо. Однако мое мнение, по-видимому, противоречит научному сообществу, в котором - при использовании цитат и новых публикаций в качестве меры - представляется, что это горячая тема.

ELM был представлен Huang et. и др. около 2003 года. Основная идея довольно проста: начать с двухслойной искусственной нейронной сети и случайным образом назначить коэффициенты в первом слое. Это превращает задачу нелинейной оптимизации, которая обычно обрабатывается путем обратного распространения, в простую задачу линейной регрессии. Более подробно, для модельxRD

f(x)=i=1Nhiddenwiσ(vi0+k=1Dvikxk).

Теперь корректируются только значения (чтобы минимизировать квадратичные потери ошибок), тогда как все v i k выбираются случайным образом. В качестве компенсации потерь в степенях свободы обычно предлагается использовать довольно большое количество скрытых узлов (то есть свободных параметров w i ).wivikwi

С другой точки зрения ( а не один , как правило , способствует в литературе, которая исходит из нервной стороны сети), вся процедура является просто линейной регрессии, но один , где вы выбираете базисные функции случайным образом , например ,ϕ

ϕi(x)=σ(vi0+k=1Dvikxk),

(Многие другие варианты, кроме сигмовидной, возможны для случайных функций. Например, тот же принцип также был применен с использованием радиальных базисных функций.)

С этой точки зрения, весь метод становится почти слишком упрощенным, и это также тот момент, когда я начинаю сомневаться в том, что этот метод действительно хорош (в то время как его научный маркетинг, безусловно, таков). Итак, вот мои вопросы:

  • Идея растрового ввода с использованием случайных базисных функций, на мой взгляд, хороша для небольших измерений. В больших измерениях, я думаю, просто невозможно найти хороший выбор, используя случайный отбор с разумным количеством базисных функций. Таким образом, ELM ухудшается в больших размерах (из-за проклятия размерности)?

  • Знаете ли вы об экспериментальных результатах, подтверждающих / противоречащих этому мнению? В связанном документе есть только один набор данных 27-мерной регрессии (PYRIM), где метод работает аналогично SVM (тогда как я бы предпочел увидеть сравнение с ANN обратного распространения)

  • В целом, я хотел бы здесь ваши комментарии о методе ELM.


См. Здесь для полной истории: theanonymousemail.com/view/?msg=ZHEZJ1AJ
Дэвидhigh

Ответы:


10

Ваша интуиция об использовании ELM для задач большого размера верна, у меня есть некоторые результаты по этому вопросу, которые я готовлю к публикации. Для многих практических задач данные не очень нелинейны, и ELM работает довольно хорошо, но всегда будут наборы данных, где проклятие размерности означает, что вероятность найти хорошую базисную функцию с кривизной именно там, где вам нужно, становится довольно маленький, даже со многими базисными векторами.

Лично я бы использовал что-то вроде машины опорных векторов наименьших квадратов (или сеть радиальных базисных функций) и попытался жадным образом выбрать базисные векторы из тех, что в обучающем наборе (см., Например, мою статью , но были и другие / лучшие подходы, которые были опубликованы примерно в одно и то же время, например, в очень хорошей книге Шолкопфа и Смолы «Обучение с ядрами»). Я думаю, что лучше вычислить приблизительное решение точной проблемы, чем точное решение приближенной проблемы, и у машин с ядром есть лучшая теоретическая основа (для фиксированного ядра; o).


1
+1. Раньше я никогда не слышал об ELM, но из описания в OP это звучит немного похоже на машину с жидким состоянием (LSM): случайное подключение к сети и оптимизация только весов считывания. Однако в LSM случайный «резервуар» является повторяющимся, тогда как в ELM это прямая связь. Это действительно сходство и разница?
говорит амеба, восстанови Монику

1
k(x,xi)xi

@amoeba: я не знал, что такое машина состояния жидкости, но, как вы говорите, она звучит очень похоже ... и, конечно, технически более широко. Тем не менее, рекуррентность просто добавляет более сложную форму случайности к проблеме, которая, по моему мнению, не излечивает проблемы проклятия размерности (... но хорошо, кто это делает?). Эти веса рекуррентности выбраны с некоторой осторожностью или также совершенно случайны?
Дэвид Хай

@davidhigh для ядра RBF, «теоремы о представлении» показывают, что нет лучшего решения, чем центрирование базисной функции на каждой обучающей выборке (делая некоторые разумные предположения относительно регуляризованной функции стоимости). Это одна из приятных особенностей методов ядра (и сплайнов), поэтому нет необходимости распространять их случайным образом. Кстати, построение линейной модели на выходе случайно выбранных базисных функций имеет очень долгую историю, мой фаворит - перцептрон с поиском в один слой ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1, но я может быть предвзятым!
Дикран Marsupial

1
@DikranMarsupial вы публиковали или у вас есть какие-либо предварительные публикации доступны?
Том Хейл,

0

ELM «учится» на данных путем аналитического решения для выходных весов. Таким образом, чем больше данных, которые поступают в сеть, даст лучшие результаты. Однако это также требует большего количества скрытых узлов. Если ELM обучен с небольшой ошибкой или без нее, при задании нового набора входных данных он не может произвести правильный вывод.

Основным преимуществом ELM по сравнению с традиционной нейронной сетью, таким как обратное распространение, является быстрое время обучения. Большая часть времени вычислений расходуется на решение веса выходного слоя, как указано в статье Хуан.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.