Калибровка мультиклассового повышенного классификатора

Я прочитал статью Александра Никулеску-Мизила и Рича Каруаны « Получение калиброванных вероятностей от повышения » и обсуждение в этой теме. Тем не менее, у меня все еще возникают проблемы с пониманием и реализацией логистики или масштабирования Платта, чтобы откалибровать вывод моего многоклассового повышающего классификатора (осторожное повышение с помощью пней решений).

Я немного знаком с обобщенными линейными моделями, и мне кажется, что я понимаю, как методы логистики и калибровки Платта работают в двоичном случае, но я не уверен, что знаю, как расширить метод, описанный в статье, для случая с несколькими классами.

Классификатор, который я использую, выводит следующее:

= количество голосов, которые классификатор подает за класс для выборки , которая классифицируется $f_{ij}$ $j$ $i$
= предполагаемый класс $y_i$

На данный момент у меня есть следующие вопросы:

Q1: мне нужно использовать полиномиальный логит для оценки вероятностей? или я все еще могу сделать это с помощью логистической регрессии (например, по принципу « 1 против всех» )?

Q2: Как я должен определить промежуточные целевые переменные (например, как в масштабировании Платта) для случая мультикласса?

Q3: я понимаю, что это может быть много, но кто-нибудь захочет набросать псевдокод для этой проблемы? (на более практическом уровне меня интересует решение в Matlab).

machine-learning boosting

— Амелио Васкес-Рейна
источник

отличный вопрос Я также задавался вопросом о том, как построить калибровку, даже если вы используете схему 1 против остальных. Если вы создаете k моделей, используя 1 по сравнению с остальными (и есть k классов), нужно ли / нужно ли их как-то нормализовать, чтобы они составили 1 (например, разделите каждую калиброванную вероятность на сумму всех k)?

— B_Miner

Эта тема также представляет для меня практический интерес, поэтому я провел небольшое исследование. Вот две статьи автора, которые часто упоминаются в качестве ссылки в этих вопросах.

Суть метода, отстаиваемого здесь, состоит в том, чтобы свести проблему мультикласса к бинарной (например, один против остальных, AKA один против всех), использовать метод, такой как Платт (предпочтительно с использованием тестового набора), для определения двоичных показателей / вероятностей и затем объедините их, используя технику, как обсуждалось в статьях (одна из них является продолжением процесса «связывания» Хасти и др.). В первой ссылке лучшие результаты были найдены простой нормализацией бинарных вероятностей до того, что они составляют 1.

Я хотел бы услышать другой совет, и если бы какой-либо из этих методов был внедрен в R.

— B_Miner
источник

Ссылки, указанные в ответе, устарели. Последние ссылки: citeseerx.ist.psu.edu/viewdoc/... citeseerx.ist.psu.edu/viewdoc/...

— Chandra

Перекрестная ссылка на здесь stats.stackexchange.com/questions/362460/…

— TMrtSmith

Повторяю этот ответ. Это поставило меня в тупик на некоторое время, но статья Задрозного и Элкана оказалась полезной.

— Сонгололо