Я думал о внедрении и использовании парадигмы Extreme Learning Machine (ELM) уже более года, и чем дольше я это делаю, тем больше сомневаюсь, что это действительно хорошо. Однако мое мнение, по-видимому, противоречит научному сообществу, в котором - при использовании цитат и новых публикаций в качестве меры - представляется, что это горячая тема.
ELM был представлен Huang et. и др. около 2003 года. Основная идея довольно проста: начать с двухслойной искусственной нейронной сети и случайным образом назначить коэффициенты в первом слое. Это превращает задачу нелинейной оптимизации, которая обычно обрабатывается путем обратного распространения, в простую задачу линейной регрессии. Более подробно, для модель
Теперь корректируются только значения (чтобы минимизировать квадратичные потери ошибок), тогда как все v i k выбираются случайным образом. В качестве компенсации потерь в степенях свободы обычно предлагается использовать довольно большое количество скрытых узлов (то есть свободных параметров w i ).
С другой точки зрения ( а не один , как правило , способствует в литературе, которая исходит из нервной стороны сети), вся процедура является просто линейной регрессии, но один , где вы выбираете базисные функции случайным образом , например ,
(Многие другие варианты, кроме сигмовидной, возможны для случайных функций. Например, тот же принцип также был применен с использованием радиальных базисных функций.)
С этой точки зрения, весь метод становится почти слишком упрощенным, и это также тот момент, когда я начинаю сомневаться в том, что этот метод действительно хорош (в то время как его научный маркетинг, безусловно, таков). Итак, вот мои вопросы:
Идея растрового ввода с использованием случайных базисных функций, на мой взгляд, хороша для небольших измерений. В больших измерениях, я думаю, просто невозможно найти хороший выбор, используя случайный отбор с разумным количеством базисных функций. Таким образом, ELM ухудшается в больших размерах (из-за проклятия размерности)?
Знаете ли вы об экспериментальных результатах, подтверждающих / противоречащих этому мнению? В связанном документе есть только один набор данных 27-мерной регрессии (PYRIM), где метод работает аналогично SVM (тогда как я бы предпочел увидеть сравнение с ANN обратного распространения)
В целом, я хотел бы здесь ваши комментарии о методе ELM.