Приводят ли коррелированные входные данные к переоснащению нейронными сетями?


13

По моему мнению, коррелированные входные данные должны привести к переоснащению в нейронных сетях, потому что сеть узнает корреляцию, например, шум в данных.

Это верно?

Ответы:


11

Вообще-то, нет.

Вопрос как таковой является немного общим и смешивает две вещи, которые на самом деле не связаны. Подгонка обычно подразумевается как противопоставление качеству обобщенного описания; в том смысле, что перегруженная (или перегруженная) сеть будет иметь меньшую мощность обобщения. Это качество в первую очередь определяется сетевой архитектурой, обучением и процедурой валидации. Данные и их свойства вводятся только как «то, на чем происходит процедура обучения». Это более или менее «знание учебника»; Вы можете попробовать «Введение в статистическое обучение» Джеймса, Виттена, Хасти и Тибширани. Или «Распознавание образов» Бишопа (моя любимая книга на общую тему). Или «Распознавание образов и машинное обучение», также епископом.

Для самой корреляции: рассмотрим входное пространство, имеющее определенный размер. Независимо от того, какое преобразование вы используете, размерность останется неизменной - так говорит линейная алгебра. В одном случае данная база будет полностью некоррелированной - это то, что вы получаете, когда вы декоррелируете переменные или просто применяете PAT (Принцип Оси Преобразования.) Возьмите для этого любую книгу по линейной алгебре.

Поскольку нейронная сеть с соответствующей архитектурой может моделировать любую (!) Функцию, вы можете смело предположить, что она также может сначала смоделировать PAT, а затем делать то, что она также должна делать - например, классификацию, регрессию и т. Д.

Вы также можете рассмотреть корреляцию как функцию, которая должна быть частью описания нейронной сети, поскольку это свойство данных. Природа корреляции на самом деле не важна, если только она не является частью данных. На самом деле это будет другая тема - вы должны смоделировать или измерить что-то вроде шума на входе и учесть это.

Итак, в итоге нет. Коррелированные данные означают, что вам нужно больше работать, чтобы технически упростить обработку данных и сделать ее более эффективной. Может произойти переоснащение, но не произойдет, потому что есть коррелированные данные.


Извините, но я до сих пор не понимаю, почему. Также мои сомнения немного общие. Я искал ответ на вопрос «Может ли коррелированные входные данные быть вредными для нейронных сетей?». Здесь вы заявляете: «Вы можете смело предположить, что он также может сначала смоделировать PAT». Но как вы делаете это предположение? И затем мой следующий вопрос: что произойдет, если нейронная архитектура не смогла смоделировать PAT?
bytestorm

@bytestorm: ваш первый вопрос отличается от оригинала. Коррелированный ввод может ограничить производительность вашего ANN (так же как и для других методов). Но это не присущее ANN свойство. Что касается второго вопроса, это не предположение, а просто примерное объяснение, почему ANN могут моделировать PAT. На практике я бы так не поступил и не рекомендовал бы этого делать.
Херувим

6

Херувим прав в отношении его утверждения, касающегося чрезмерного соответствия. Тем не менее, я думаю, что обсуждение сильно коррелированных функций и ANN чрезмерно упрощает проблему.

Да, теоретически верно, что ИНС может аппроксимировать любую функцию. Однако на практике не стоит включать многочисленные сильно коррелированные функции. Это внесет много избыточностей в модель. Включение таких избыточностей создаст ненужные сложности и может увеличить количество локальных минимумов. Учитывая, что функция потерь в ANN не является гладкой по своей природе, введение ненужной шероховатости не является хорошей идеей.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.