Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут к снижению показателя.

Я использовал стратифицированную 10-кратную перекрестную проверку для вычисления вероятности ошибочной классификации. Мой текущий размер выборки составляет около 40 правильных совпадений и 80 неправильных совпадений, где каждая точка данных является вычисленной метрикой. Я получаю вероятность ошибочной классификации 0,00, но мне нужен какой-то доверительный интервал / анализ ошибок по этому вопросу.

Я искал использование доверительного интервала биномиальной пропорции (где я использовал результаты перекрестной проверки как правильную маркировку или неправильную маркировку для моего количества успехов). Однако одно из предположений, лежащих в основе биномиального анализа, - это одинаковая вероятность успеха для каждого испытания, и я не уверен, можно ли считать, что метод классификации «правильный» или «неправильный» в перекрестной проверке имеет такая же вероятность успеха.

Единственный другой анализ, о котором я могу подумать, это повторить перекрестную проверку X раз и вычислить среднее / стандартное отклонение ошибки классификации, но я не уверен, что это даже уместно, так как я бы повторно использовал данные из моего Относительно небольшой размер выборки в несколько раз.

есть идеи? Я использую MATLAB для всего моего анализа, и у меня есть набор инструментов статистики. Буду признателен за любую помощь!

— Шон
источник

Вероятность ошибочной классификации в 0,00 означает, что вы получаете 100% точность классификации по каждой из 10 сгибов перекрестной проверки?

— говорит амеба, восстанови Монику

Да, это правильно. Каждая из складок не привела к ошибочной классификации; 0,00, о которых я сообщил, представляет собой общее количество ошибочных классификаций (0) из общего числа тестовых случаев (120).

— Шон

Кстати, что именно вы подразумеваете под "стратифицированной" перекрестной проверкой? На каждом CV у вас есть 120/10 = 12 тестовых образцов, всегда 4 совпадения и 8 не совпадений?

— говорит амеба, восстанови Монику

Да, именно так - по крайней мере, так я понимаю, как это делается в MATLAB. Каждый сгиб должен содержать одинаковую пропорцию меток «правильного» / «неправильного» класса, равную 1: 2.

— Шон

Ответы:

Влияние нестабильности в предсказаниях разных суррогатных моделей

Однако одно из предположений, лежащих в основе биномиального анализа, - это одинаковая вероятность успеха для каждого испытания, и я не уверен, можно ли считать, что метод классификации «правильный» или «неправильный» в перекрестной проверке имеет такая же вероятность успеха.

Ну, обычно эта эквивалентность является предположением, которое также необходимо, чтобы позволить вам объединить результаты различных суррогатных моделей.

На практике ваша интуиция о том, что это предположение может быть нарушено, часто бывает верной. Но вы можете измерить, так ли это. Вот где мне полезна повторная перекрестная проверка: стабильность предсказаний для одного и того же случая с помощью различных суррогатных моделей позволяет судить, являются ли модели эквивалентными (устойчивые предсказания) или нет.

Вот схема повторной (или повторной) кратной перекрестной проверки: $k$
повторная перекрестная проверка в k-кратном размере

Классы красные и синие. Круги справа символизируют прогнозы. На каждой итерации каждая выборка прогнозируется ровно один раз. Обычно, общее среднее значение используется в качестве оценки производительности, неявно предполагая, что производительность суррогатных моделей одинакова. Если вы посмотрите на каждую выборку с помощью прогнозов, сделанных различными суррогатными моделями (то есть по столбцам), вы увидите, насколько стабильны прогнозы для этой выборки. $i \cdot k$

Вы также можете рассчитать производительность для каждой итерации (блок из 3 строк на чертеже). Любая разница между ними означает, что предположение о том, что суррогатные модели эквивалентны (друг другу и, более того, «великой модели», построенной на всех случаях), не выполняется. Но это также говорит вам, сколько у вас нестабильности. Что касается биномиальной пропорции, я думаю, что до тех пор, пока истинные показатели одинаковы (т. Е. Независимы от того, всегда ли одни и те же случаи ошибочно прогнозируются или же ошибочно прогнозируются одинаковое число, но разные случаи). Я не знаю, можно ли разумно предположить конкретное распределение производительности суррогатных моделей. Но я думаю, что в любом случае это преимущество перед распространенным в настоящее время сообщением об ошибках классификации, если вы сообщаете об этой нестабильности вообще. $k$ суррогатных моделей были объединены уже для каждой из итераций, дисперсия нестабильности примерно в раз превышает наблюдаемую дисперсию между итерациями. $k$

Мне обычно приходится работать с менее чем 120 независимыми случаями, поэтому я очень сильно упорядочил свои модели. Я тогда , как правило , в состоянии показать , что нестабильность дисперсия , чем конечная дисперсия размера исследуемого образца. (И я думаю, что это имеет смысл для моделирования, поскольку люди склонны к обнаружению закономерностей и, таким образом, тянутся к построению слишком сложных моделей и, таким образом, к переоснащению). Я обычно сообщаю процентили наблюдаемой дисперсии нестабильности на итерациях (и , и ) и биномиальные доверительные интервалы на средней наблюдаемой производительности для конечного размера тестовой выборки. $\ll$
$n$ $k$ $i$

Чертеж является более новой версией рис. 5 в этой статье: Beleites, C. & Salzer, R .: Оценка и улучшение стабильности хемометрических моделей в ситуациях с небольшим размером выборки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Заметьте, что когда мы писали статью, я еще не полностью осознал различные источники дисперсии, которые я здесь объяснил, - имейте это в виду. Поэтому я считаю, что аргументациядля оценки эффективного размера выборки, приведенной здесь, это неверно, хотя заключение приложения о том, что различные типы тканей в каждом пациенте дают столько же общей информации, сколько новый пациент с данным типом ткани, все еще вероятно (у меня совершенно другой тип доказательства, которые также указывают на это). Тем не менее, я еще не совсем уверен в этом (ни как сделать это лучше и, следовательно, быть в состоянии проверить), и эта проблема не связана с вашим вопросом.

Какую производительность использовать для биномиального доверительного интервала?

До сих пор я использовал среднюю наблюдаемую производительность. Вы также можете использовать худшую наблюдаемую производительность: чем ближе наблюдаемая производительность к 0,5, тем больше дисперсия и, следовательно, доверительный интервал. Таким образом, доверительные интервалы наблюдаемой производительности, близкие к 0,5, дают вам некоторый консервативный «запас прочности».

Обратите внимание, что некоторые методы для вычисления биномиальных доверительных интервалов работают также, если наблюдаемое количество успехов не является целым числом. Я использую «интеграцию байесовской апостериорной вероятности», как описано в
Ross, TD: Точные доверительные интервалы для биномиальной пропорции и оценки скорости Пуассона, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2

(Я не знаю, для Matlab, но в R вы можете использовать binom::binom.bayesс обоими параметрами формы, установленными в 1).

Эти мысли применимы к прогнозным моделям, построенным на этом обучающем наборе данных, для неизвестных новых случаев. Если вам нужно сгенерировать другие наборы обучающих данных, взятые из той же совокупности случаев, вам необходимо оценить, насколько изменяются модели, обученные на новых обучающих выборках размера . (Я понятия не имею, как это сделать, кроме как получить «физически» новые наборы тренировочных данных) $n$

См. Также: Bengio Y. and Grandvalet Y .: Нет объективной оценки дисперсии перекрестной проверки K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .

(Больше думать об этом есть в моем списке задач ... но, поскольку я пришел из экспериментальной науки, мне нравится дополнять теоретические и симуляционные выводы экспериментальными данными - что здесь сложно, так как мне нужен большой набор независимых кейсов для эталонного тестирования)

Обновление: оправдано ли предположить биомиальное распределение?

Я вижу k-кратное CV как в следующем эксперименте по бросанию монет : вместо того, чтобы бросать одну монету большое количество раз, монет, произведенных той же самой машиной, бросают меньшее количество раз. В этой картине, я думаю, @Tal указывает, что монеты не совпадают. Что, очевидно, правда. Я думаю, что следует и что можно сделать, зависит от предположения об эквивалентности для суррогатных моделей. $k$

Если на самом деле существует разница в производительности между суррогатными моделями (монетами), «традиционное» предположение о том, что суррогатные модели эквивалентны, не имеет места. В этом случае не только распределение не является биномиальным (как я уже говорил выше, я понятия не имею, какое распределение использовать: это должна быть сумма биномов для каждой суррогатной модели / каждой монеты). Однако обратите внимание, что это означает, что объединение результатов суррогатных моделей не допускается. Таким образом, ни бином для тестов не является хорошим приближением (я пытаюсь улучшить приближение, говоря, что у нас есть дополнительный источник вариации: нестабильность), ни средняя производительность не может использоваться в качестве точечной оценки без дальнейшего обоснования. $n$

Если, с другой стороны, (истинные) характеристики суррогата одинаковы, то есть когда я имею в виду «модели эквивалентны» (один из симптомов состоит в том, что прогнозы стабильны). Я думаю, что в этом случае результаты всех суррогатных моделей могут быть объединены, и биномиальное распределение для всех тестов должно быть приемлемым для использования: я думаю, что в этом случае мы оправданы, чтобы приблизить истинные s суррогатных моделей, чтобы они были равны и, таким образом, описать тест как эквивалент броска одной монеты раз. $n$ $p$ $n$

— cbeleites недоволен SX
источник

Привет @cbeleites, я только что прокомментировал, что мой CV-анализ дает 2 уникальных значения для этого конкретного набора данных (некоторые другие наборы данных имеют N уникальных значений, причем N обычно меньше 5), так же, как амеба, описанная выше. Учитывая это, как я могу показать, что мои прогнозы стабильны, используя только мой единственный набор данных и резюме? Что касается биномиального распределения, я рассматривал интервал Agresti-Coull (может работать с высокой вероятностью успеха / 100% успеха без сбоев). Кажется, вы говорите, что я могу использовать биномиальное распределение, но мне все еще неясно, как я могу оправдать это предположение о том же шансов на успех.

— Шон

@cbeleites: [Я удалил свой предыдущий комментарий к вашему ответу и скопировал сюда одну его часть.] Но что значит показать, что «предсказания стабильны»? Повторные резюме не дадут абсолютно одинаковых результатов. Например, скажем, OP выполняет 1000 повторений CV и получает частоту ошибок от 0/120 до 2/120 с определенным распределением. Есть ли способ объединить эту дисперсию с биномиальной дисперсией? И для какого вычисляют биномиальный интервал?

p

$p$

— говорит амеба, восстанови Монику

@amoeba: я понятия не имею, как объединить биномиальное распределение с неизвестным распределением из-за нестабильности в один доверительный интервал. Таким образом, я сообщаю о наблюдаемых процентилях для (в) стабильности и биномиальной CI для конечного размера тестовой выборки. Как их объединить - это один из исследовательских вопросов, который я держу в голове, но до сих пор я не нашел решения и не встретил никого, кто нашел. Я предполагаю, что мы пришли на передний план исследований ...

— cbeleites недоволен SX

@Sean: Вы видели мой недавний вопрос о связанных проблемах? В комментариях идет очень интересная (для меня) дискуссия, и я сам сейчас работаю над некоторыми симуляциями. Я пришел к выводу, что биномиальное предположение сильно неправильно! Возможно, вас также заинтересуют несколько ссылок, приведенных там, которые заявляют об одном и том же.

— говорит амеба: восстанови Монику

@Sean: я постараюсь обновлять эти две темы, что означает, что после (и если) проблема будет прояснена далее, я постараюсь обобщить ситуацию там и также дать новый ответ здесь. На данный момент, вы заметили, что этот документ связан в другой теме? Авторы обсуждают именно ваш вопрос и предлагают процедуру начальной загрузки, которая, как они утверждают, работает хорошо. Если бы я прямо сейчас ответил на ваш вопрос, я бы порекомендовал их процедуру. Но было бы целесообразно сначала проверить 24 статьи, которые ссылаются на эту статью.

— амеба говорит восстановить монику

Я думаю, что ваша идея повторения перекрестной проверки много раз правильна.

Повторите ваше резюме, скажем, 1000 раз, каждый раз разбивая ваши данные на 10 частей (для 10-кратного резюме) по-разному ( не перемешивайте метки). Вы получите 1000 оценок точности классификации. Конечно, вы будете повторно использовать одни и те же данные, поэтому эти 1000 оценок не будут независимыми. Но это похоже на процедуру начальной загрузки: вы можете принять стандартное отклонение для этих погрешностей в качестве стандартной ошибки среднего значения вашей общей оценки точности. Или 95% -ный процентильный интервал как 95% -ный доверительный интервал.

В качестве альтернативы вы можете объединить цикл перекрестной проверки и цикл начальной загрузки и просто выбрать случайные (возможно, стратифицированные случайные) 10% ваших данных в качестве тестового набора и сделать это 1000 раз. Те же рассуждения, что и выше, применимы и здесь. Однако это приведет к большей дисперсии повторений, поэтому я считаю, что описанная выше процедура лучше.

Если ваш уровень ошибочной классификации равен 0,00, ваш классификатор делает ноль ошибок, и если это происходит на каждой итерации начальной загрузки, вы получите нулевой доверительный интервал. Но это будет просто означать, что ваш классификатор в значительной степени идеален, поэтому хорош для вас.

— амеба говорит восстановить монику
источник

Привет @amoeba, спасибо за ваш ответ. Не могли бы вы объяснить немного больше о вашем первом предложении повторить CV 1000 раз случайной перестановкой выборок? Должна ли быть заранее установленная пропорция набора тестов: тренировочный набор (например, 10:90 для 10-кратной перекрестной проверки)? Думаю, мне немного неясно, как повторение 10-кратной проверки увеличит дисперсию во времени.

— Шон

Я боюсь, что вторая процедура, предложенная @amoeba, слишком оптимистична: неидеальный классификатор может иметь идеальную производительность для данного набора данных (например, предположим, что у вас есть только 4 выборки - это 1: 8, чтобы классифицировать их все правильно случайно). Как отмечал амеба, измерение дисперсии по разным распределениям сгибов при испытаниях на поездах даст 0 доверительный интервал ширины, что в данном случае явно неверно.

— Trisoloriansunscreen

Я думаю, что в конечном итоге эта проблема сводится к тому, чтобы найти вероятность наблюдения данных, которая отличается от того, что я еще не наблюдал. Получение доверительных интервалов для моей выборки - это то, что @amoeba предложило для моего первоначального вопроса (я использовал случайные сгибы для каждой итерации CV), и результат выглядит более реалистичным (95% ДИ: [0.0028, 0.0033]). Тем не менее, я не знаю, есть ли другой метод, который был бы лучше для будущего прогнозирования данных. Возможно, какой-то подход на основе моделей, когда я подгоняю кривые к своим данным и рассчитываю их перекрытие?

— Шон

@amoeba: Спасибо за разъяснения, я полагаю, я недостаточно внимательно прочитал ваш ответ. Тем не менее, я все еще обеспокоен оптимистичным уклоном этого подхода (обе процедуры). Измеряя точность при попытке разных CV-расщеплений, вы оцениваете изменчивость, вызванную произвольным расщеплением. Тем не менее, вы игнорируете тот факт, что все ваши данные являются случайной выборкой из большей совокупности наблюдений (которые вы не собирали). Если у вас есть небольшой набор данных, который случайно достигает идеальной производительности (независимо от разделения CV), ваш доверительный интервал равен нулю, и это неверно.

— Trisoloriansunscreen

@amoeba: Это сложно, так как вы не можете запустить сами наблюдения (рассмотрите классификатор ближайшего соседа в таком случае). Я сам борюсь с этой проблемой, посмотрим, придумает ли кто-то еще идею.

— Trisoloriansunscreen

Ошибка классификации - это и прерывистое, и неправильное правило подсчета очков. Он имеет низкую точность, и при оптимизации он выбирает неправильные функции и дает им неправильный вес.

— Фрэнк Харрелл
источник

Это вряд ли может быть проблемой для ОП, если он получает 99-100% перекрестной проверки точности классификации.

— говорит амеба: восстанови монику

@amoeba: Это также может быть проблемой, если соблюдаются правильные пропорции, близкие к 100 или 0%: в отличие от показателей эффективности, которые основаны на непрерывных оценках, любой вид производительности, который измеряется после дихотомии (закалки), непрерывной классификации не может указывать предсказания приближаются к границе принятия решения, пока они все еще находятся на правильной стороне. Тем не менее, ИМХО есть веские причины сообщать о показателях производительности пропорционального типа (например, если ваши читатели / сотрудники понимают их, но не понимают, например, оценки Бриера). Я не хотел открывать это ...

— cbeleites недоволен SX

... линия обсуждения, поскольку в вопросе не было указаний на оптимизацию (вот где это становится действительно важным).

— cbeleites недоволен SX

Если вы вычисляете пропорции, классифицированные как «правильно», вы должны делать это по какой-то причине, например, чтобы вынести решение или предпринять действие. Пропорция вводит в заблуждение для этих целей.

— Фрэнк Харрелл

@FrankHarrell: Ну, я думаю, что причина в том, чтобы сообщить об этом в газете. Как вы думаете, люди должны вообще прекратить сообщать о точности классификации?

— говорит амеба: восстанови монику