Влияние нестабильности в предсказаниях разных суррогатных моделей
Однако одно из предположений, лежащих в основе биномиального анализа, - это одинаковая вероятность успеха для каждого испытания, и я не уверен, можно ли считать, что метод классификации «правильный» или «неправильный» в перекрестной проверке имеет такая же вероятность успеха.
Ну, обычно эта эквивалентность является предположением, которое также необходимо, чтобы позволить вам объединить результаты различных суррогатных моделей.
На практике ваша интуиция о том, что это предположение может быть нарушено, часто бывает верной. Но вы можете измерить, так ли это. Вот где мне полезна повторная перекрестная проверка: стабильность предсказаний для одного и того же случая с помощью различных суррогатных моделей позволяет судить, являются ли модели эквивалентными (устойчивые предсказания) или нет.
Вот схема повторной (или повторной) кратной перекрестной проверки:k
Классы красные и синие. Круги справа символизируют прогнозы. На каждой итерации каждая выборка прогнозируется ровно один раз. Обычно, общее среднее значение используется в качестве оценки производительности, неявно предполагая, что производительность суррогатных моделей одинакова. Если вы посмотрите на каждую выборку с помощью прогнозов, сделанных различными суррогатными моделями (то есть по столбцам), вы увидите, насколько стабильны прогнозы для этой выборки.i⋅k
Вы также можете рассчитать производительность для каждой итерации (блок из 3 строк на чертеже). Любая разница между ними означает, что предположение о том, что суррогатные модели эквивалентны (друг другу и, более того, «великой модели», построенной на всех случаях), не выполняется. Но это также говорит вам, сколько у вас нестабильности. Что касается биномиальной пропорции, я думаю, что до тех пор, пока истинные показатели одинаковы (т. Е. Независимы от того, всегда ли одни и те же случаи ошибочно прогнозируются или же ошибочно прогнозируются одинаковое число, но разные случаи). Я не знаю, можно ли разумно предположить конкретное распределение производительности суррогатных моделей. Но я думаю, что в любом случае это преимущество перед распространенным в настоящее время сообщением об ошибках классификации, если вы сообщаете об этой нестабильности вообще.кk суррогатных моделей были объединены уже для каждой из итераций, дисперсия нестабильности примерно в раз превышает наблюдаемую дисперсию между итерациями.k
Мне обычно приходится работать с менее чем 120 независимыми случаями, поэтому я очень сильно упорядочил свои модели. Я тогда , как правило , в состоянии показать , что нестабильность дисперсия , чем конечная дисперсия размера исследуемого образца. (И я думаю, что это имеет смысл для моделирования, поскольку люди склонны к обнаружению закономерностей и, таким образом, тянутся к построению слишком сложных моделей и, таким образом, к переоснащению).
Я обычно сообщаю процентили наблюдаемой дисперсии нестабильности на итерациях (и , и ) и биномиальные доверительные интервалы на средней наблюдаемой производительности для конечного размера тестовой выборки.н к я≪
nki
Чертеж является более новой версией рис. 5 в этой статье: Beleites, C. & Salzer, R .: Оценка и улучшение стабильности хемометрических моделей в ситуациях с небольшим размером выборки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Заметьте, что когда мы писали статью, я еще не полностью осознал различные источники дисперсии, которые я здесь объяснил, - имейте это в виду. Поэтому я считаю, что аргументациядля оценки эффективного размера выборки, приведенной здесь, это неверно, хотя заключение приложения о том, что различные типы тканей в каждом пациенте дают столько же общей информации, сколько новый пациент с данным типом ткани, все еще вероятно (у меня совершенно другой тип доказательства, которые также указывают на это). Тем не менее, я еще не совсем уверен в этом (ни как сделать это лучше и, следовательно, быть в состоянии проверить), и эта проблема не связана с вашим вопросом.
Какую производительность использовать для биномиального доверительного интервала?
До сих пор я использовал среднюю наблюдаемую производительность. Вы также можете использовать худшую наблюдаемую производительность: чем ближе наблюдаемая производительность к 0,5, тем больше дисперсия и, следовательно, доверительный интервал. Таким образом, доверительные интервалы наблюдаемой производительности, близкие к 0,5, дают вам некоторый консервативный «запас прочности».
Обратите внимание, что некоторые методы для вычисления биномиальных доверительных интервалов работают также, если наблюдаемое количество успехов не является целым числом. Я использую «интеграцию байесовской апостериорной вероятности», как описано в
Ross, TD: Точные доверительные интервалы для биномиальной пропорции и оценки скорости Пуассона, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Я не знаю, для Matlab, но в R вы можете использовать binom::binom.bayes
с обоими параметрами формы, установленными в 1).
Эти мысли применимы к прогнозным моделям, построенным на этом обучающем наборе данных, для неизвестных новых случаев. Если вам нужно сгенерировать другие наборы обучающих данных, взятые из той же совокупности случаев, вам необходимо оценить, насколько изменяются модели, обученные на новых обучающих выборках размера . (Я понятия не имею, как это сделать, кроме как получить «физически» новые наборы тренировочных данных)n
См. Также: Bengio Y. and Grandvalet Y .: Нет объективной оценки дисперсии перекрестной проверки K-Fold, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Больше думать об этом есть в моем списке задач ... но, поскольку я пришел из экспериментальной науки, мне нравится дополнять теоретические и симуляционные выводы экспериментальными данными - что здесь сложно, так как мне нужен большой набор независимых кейсов для эталонного тестирования)
Обновление: оправдано ли предположить биомиальное распределение?
Я вижу k-кратное CV как в следующем эксперименте по бросанию монет : вместо того, чтобы бросать одну монету большое количество раз, монет, произведенных той же самой машиной, бросают меньшее количество раз. В этой картине, я думаю, @Tal указывает, что монеты не совпадают. Что, очевидно, правда. Я думаю, что следует и что можно сделать, зависит от предположения об эквивалентности для суррогатных моделей.k
Если на самом деле существует разница в производительности между суррогатными моделями (монетами), «традиционное» предположение о том, что суррогатные модели эквивалентны, не имеет места. В этом случае не только распределение не является биномиальным (как я уже говорил выше, я понятия не имею, какое распределение использовать: это должна быть сумма биномов для каждой суррогатной модели / каждой монеты). Однако обратите внимание, что это означает, что объединение результатов суррогатных моделей не допускается. Таким образом, ни бином для тестов не является хорошим приближением (я пытаюсь улучшить приближение, говоря, что у нас есть дополнительный источник вариации: нестабильность), ни средняя производительность не может использоваться в качестве точечной оценки без дальнейшего обоснования.n
Если, с другой стороны, (истинные) характеристики суррогата одинаковы, то есть когда я имею в виду «модели эквивалентны» (один из симптомов состоит в том, что прогнозы стабильны). Я думаю, что в этом случае результаты всех суррогатных моделей могут быть объединены, и биномиальное распределение для всех тестов должно быть приемлемым для использования: я думаю, что в этом случае мы оправданы, чтобы приблизить истинные s суррогатных моделей, чтобы они были равны и, таким образом, описать тест как эквивалент броска одной монеты раз.р нnpn