Какие, если таковые имеются, алгоритмы машинного обучения считаются хорошим компромиссом между объяснимостью и предсказанием?

9

Тексты машинного обучения, описывающие алгоритмы, такие как машины повышения градиента или нейронные сети, часто комментируют, что эти модели хороши в прогнозировании, но это происходит за счет потери объяснимости или интерпретируемости. И наоборот, одиночные деревья решений и классические регрессионные модели помечены как хорошие для объяснения, но дают (относительно) низкую точность прогноза по сравнению с более сложными моделями, такими как случайные леса или SVM. Существуют ли общепринятые модели машинного обучения, представляющие хороший компромисс между ними? Есть ли литература, перечисляющая характеристики алгоритмов, которые позволяют их объяснять? (Этот вопрос ранее задавался по перекрестной проверке)

machine-learning predictive-modeling

— Роберт де Грааф
источник

3

Есть ли литература, перечисляющая характеристики алгоритмов, которые позволяют их объяснять?

Единственная литература, о которой я знаю, это недавняя статья Риберо, Сингха и Гестрина. Сначала они определяют объяснимость одного прогноза:

Под «объяснением предсказания» мы подразумеваем представление текстовых или визуальных артефактов, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, заплатками на изображении) и предсказанием модели.

Авторы далее уточняют, что это означает для более конкретных примеров, а затем используют это понятие для определения объяснимости модели. Их цель состоит в том, чтобы попытаться, так сказать, искусственно добавить объяснимость к другим непрозрачным моделям, а не сравнивать объяснимость существующих методов. Документ может быть полезен в любом случае, так как он пытается ввести более точную терминологию вокруг понятия «объяснимость».

Существуют ли общепринятые модели машинного обучения, представляющие хороший компромисс между ними?

Я согласен с @Winter, что упругая сеть для (не только логистической) регрессии может рассматриваться как пример хорошего компромисса между точностью предсказания и объяснимостью.

Для другого типа области приложения (временные ряды) другой класс методов также обеспечивает хороший компромисс: Байесовское структурное моделирование временных рядов. Он наследует объяснимость от классического структурного моделирования временных рядов, а некоторую гибкость от байесовского подхода. Как и в случае логистической регрессии, объяснению помогают регрессионные уравнения, используемые для моделирования. Смотрите эту статью для хорошего применения в маркетинге и дальнейших ссылок.

Что касается только что упомянутого байесовского контекста, вы также можете взглянуть на вероятностные графические модели. Их объяснимость основана не на уравнениях регрессии, а на графических способах моделирования; см. «Вероятностные графические модели: принципы и методы» Коллера и Фридмана для большого обзора.

Я не уверен, можем ли мы ссылаться на байесовские методы выше как на «общепринятый хороший компромисс». Они могут быть недостаточно известны для этого, особенно по сравнению с примером эластичной сетки.

— MightyCurious
источник

Теперь, когда у меня больше шансов рассмотреть связанный документ Рибейро и др., Я хотел бы сказать, что в Разделе 2 «Объяснение» содержится что-то полезное определение «объяснимости», и достойная работа по разъяснению его важности и, как таковая, заслуживает широкого прочтения в сообществе Data Science.

— Роберт де Грааф

Хотя предпосылка моего вопроса не была принята в CV, @SeanEaster помог мне с этой полезной ссылкой: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article

— Роберт де Грааф

3

Существуют ли общепринятые модели машинного обучения, представляющие хороший компромисс между ними?

Я предполагаю, что, будучи хорошим в прогнозировании, вы имеете в виду возможность уместить нелинейности, присутствующие в данных, будучи достаточно устойчивыми к переобучению. Компромисс между интерпретируемостью и способностью предсказывать эти нелинейности зависит от данных и задаваемого вопроса. В науке о данных действительно нет бесплатного обеда, и ни один алгоритм не может считаться лучшим для любого набора данных (и то же самое относится к интерпретируемости).

Общее правило должно заключаться в том, что чем больше алгоритмов вы знаете, тем лучше для вас, так как вам будет легче адаптироваться к вашим конкретным потребностям.

Если бы мне пришлось выбирать свою любимую для классификации задачу, которую я часто использую в бизнес-среде, я бы выбрал эластичную сеть для логистической регрессии . Несмотря на твердое предположение о процессе, который генерирует данные, его можно легко перенести в данные благодаря условию регуляризации, поддерживающему его интерпретируемость из базовой логистической регрессии.

Есть ли литература, перечисляющая характеристики алгоритмов, которые позволяют их объяснять?

Я бы посоветовал вам выбрать хорошо написанную книгу, в которой описаны часто используемые алгоритмы машинного обучения, а также их плюсы и минусы в различных сценариях. Примером такой книги могут быть «Элементы статистического обучения » Т. Хасти, Р. Тибширани и Дж. Фридмана

— зима
источник

3

Т.Б., я был разочарован этим точным текстом, который много раз использует слово «интерпретируемый» по отношению к различным моделям, и на одном из этапов говорит: «приложение интеллектуального анализа данных требует интерпретируемых моделей. Недостаточно просто делать прогнозы »(раздел 10.7), без моей возможности найти материал о том, как определить интерпретируемую модель, что и вызвало вопрос. Хотя я был и не хочу выступать с критикой такого высоко ценимого текста. Точно так же в статье Тибширани, в которой вводится LASSO, перечисляется «интерпретируемый» как одно из его достоинств, не говоря, что такое «интерпретируемый».

— Роберт де Грааф

1

Возможно, посмотрите мой ответ относительно необоснованной эффективности ансамблей и компромиссов между объяснением и предсказанием. Минимальная длина сообщения (MML, Wallace 2005) дает формальное определение объяснения в терминах сжатия данных и мотивирует ожидание того, что объяснения обычно подходят без переобучения, а хорошие объяснения дают хорошие, обобщаемые предсказания. Но это также затрагивает формальную теорию, почему ансамбли будут предсказывать лучше - результат, восходящий к (Solomonoff 1964) по оптимальному прогнозированию и свойственный полностью байесовским подходам: интегрировать по апостериорному распределению, а не просто выбирать среднее значение, медиану, или режим.

— ctwardy
источник