Что такое абляция? И есть ли систематический способ сделать это?


27

Что такое абляция? И есть ли систематический способ сделать это? Например, у меня есть N предикторов в линейной регрессии, которые я назову своей моделью.

Как я проведу исследование абляции с этим? Какие метрики я должен использовать?

Всесторонний источник или учебник был бы оценен.


4
Термин «исследование абляции» часто используется в контексте нейронных сетей, особенно относительно сложных, таких как R-CNN. Идея состоит в том, чтобы узнать о сети, удалив ее части и изучив ее производительность. В контексте линейной регрессии, которую вы предлагаете, абляция на самом деле не имеет смысла - она ​​превратилась бы в своего рода процедуру обратного пошагового выбора переменной.
Роберт Лонг

Ответы:


48

Первоначальное значение «абляция» - хирургическое удаление тканей тела . Термин «исследование абляции» берет свое начало в области экспериментальной нейропсихологии 1960-х и 1970-х годов, где части мозга животных были удалены, чтобы изучить влияние, которое это оказало на их поведение.

В контексте машинного обучения, и особенно сложных глубоких нейронных сетей, «абляционное исследование» было принято для описания процедуры, при которой удаляются определенные части сети, чтобы лучше понять ее поведение.

Термин получил внимание с твита Франсуа Шоле , основного автора концепции глубокого обучения Keras , в июне 2018 года:

Абляционные исследования имеют решающее значение для глубоких исследований обучения - не могу подчеркнуть это достаточно. Понимание причинно-следственных связей в вашей системе является наиболее простым способом получения надежных знаний (цель любого исследования). А абляция - это очень легкий способ взглянуть на причинность.

Если вы используете какую-либо сложную экспериментальную установку для глубокого обучения, скорее всего, вы можете удалить несколько модулей (или заменить некоторые обученные функции случайными) без потери производительности. Избавьтесь от шума в процессе исследования: делайте абляционные исследования.

Не можете полностью понять вашу систему? Много движущихся частей? Хотите убедиться, что причина, по которой это работает, действительно связана с вашей гипотезой? Попробуйте удалить вещи. Потратьте как минимум ~ 10% времени на эксперименты, чтобы честно попытаться опровергнуть ваш тезис.

В качестве примера Girshick и коллеги (2014) описывают систему обнаружения объектов, которая состоит из трех «модулей»: первая предлагает области изображения, в которых можно искать объект с использованием алгоритма выборочного поиска ( Uijlings и коллеги 2012 ), который передает в большую сверточную нейронную сеть (с 5 сверточными слоями и 2 полностью связанными слоями), которая выполняет извлечение признаков, которое, в свою очередь, передает набор машин опорных векторов для классификации. Чтобы лучше понять систему, авторы провели исследование абляции, в котором были удалены различные части системы - например, удаление одного или обоих полностью подключенных слоев CNN привело к удивительно небольшим потерям производительности, что позволило авторам сделать вывод

Значительная часть представительной силы CNN исходит от его сверточных слоев, а не от гораздо больших плотно связанных слоев.

ОП запрашивает подробности / как / провести исследование абляции, а также исчерпывающие ссылки. Я не верю, что есть ответ «один размер подходит всем». Метрики могут различаться в зависимости от приложения и типа модели. Если мы сузим проблему просто до одной глубокой нейронной сети, то будет достаточно просто увидеть, что мы можем принципиально удалить слои и исследовать, как это меняет производительность сети. Помимо этого, на практике все ситуации различны, и в мире больших сложных приложений машинного обучения это будет означать, что для каждой ситуации, вероятно, потребуется уникальный подход.

В контексте примера в OP - линейной регрессии - исследование абляции не имеет смысла, потому что все, что может быть «удалено» из модели линейной регрессии, являются одними из предикторов. Делать это «принципиально» - это просто пошаговая процедура выбора, которая обычно осуждается - подробности см. Здесь , здесь и здесь . Процедура регуляризации, такая как лассо, является гораздо лучшим вариантом для линейной регрессии.

Refs:

Гиршик Р., Донахью Дж., Даррелл Т. и Малик Дж., 2014. Богатые возможности иерархии для точного обнаружения объектов и семантической сегментации. В материалах конференции IEEE по компьютерному зрению и распознаванию образов (стр. 580-587).

Uijlings, JR, Ван Де Санд, KE, Gevers, T. и Smeulders, AW, 2013. Выборочный поиск для распознавания объектов. Международный журнал компьютерного зрения, 104 (2), с.154-171.


1
@cgo это отвечает на ваш вопрос? Если да, пожалуйста, можете ли вы пометить его как принятый ответ ...
Роберт Лонг,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.