Понимание стратифицированной перекрестной проверки

55

В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ?

Википедия говорит:

При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической классификации это означает, что каждая складка содержит примерно одинаковые пропорции двух типов меток классов.

Но я все еще в замешательстве.

Что mean response valueзначит в этом контексте?
Почему № 1 важен?
Как можно достичь № 1 на практике?

cross-validation stratification

— Амелио Васкес-Рейна
источник

44

В статье о перекрестной проверке в Энциклопедии систем баз данных говорится:

Стратификация - это процесс реорганизации данных, чтобы каждый фолд был хорошим представителем целого. Например, в задаче бинарной классификации, где каждый класс составляет 50% данных, лучше всего расположить данные так, чтобы в каждом сгибе каждый класс содержал около половины экземпляров.

Что касается важности стратификации, Кохави (исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели) приходит к выводу, что:

стратификация, как правило, является лучшей схемой, как с точки зрения смещения, так и с точки зрения дисперсии, по сравнению с регулярной перекрестной проверкой.

— Baumann
источник

5

Можете ли вы описать, интуитивно, почему это лучше, чем обычное резюме?

— MohamedEzz

Возможно, включите абзац, что есть разные степени стратификации, к которым вы можете стремиться, и что они в различной степени мешают случайности складок. Иногда все, что вам нужно, это убедиться, что в каждом сгибе есть хотя бы одна запись каждого класса. Затем вы можете просто сгенерировать сгибы случайным образом, проверить, выполняется ли это условие, и только в маловероятном случае, если оно не выполнено, переставить сгибы.

— Дэвид Эрнст

37

Стратификация направлена на то, чтобы гарантировать, что каждый склад представляет все слои данных. Обычно это делается контролируемым образом для классификации и имеет целью гарантировать, что каждый класс (приблизительно) одинаково представлен в каждой контрольной группе (которые, конечно, комбинируются друг с другом, образуя тренировочные группы).

Интуиция за этим связана с предвзятостью большинства алгоритмов классификации. Они имеют тенденцию одинаково взвешивать каждый экземпляр, что означает, что перепредставленные классы приобретают слишком большой вес (например, оптимизация F-меры, точность или дополнительная форма ошибки). Стратификация не так важна для алгоритма, который взвешивает каждый класс в равной степени (например, оптимизируя Kappa, Informedness или ROC AUC) или в соответствии с матрицей затрат (например, которая дает значение для каждого класса, правильно взвешенного и / или стоимость для каждого способа неправильная оценка). См., Например, DMW Powers (2014), Что F-мера не измеряет: особенности, недостатки, ошибки и исправления. http://arxiv.org/pdf/1503.06410

Одна конкретная проблема, которая важна даже для беспристрастных или сбалансированных алгоритмов, заключается в том, что они, как правило, не способны изучать или тестировать класс, который вообще не представлен в сгибе, и, более того, даже в случае, когда используется только один из классов. представленный в сгибе не допускает обобщения для выполнения соотв. оценены. Однако даже это соображение не является универсальным и, например, не применяется так много к обучению в одном классе, которое пытается определить, что является нормальным для отдельного класса, и эффективно идентифицирует выбросы как другой класс, учитывая эту перекрестную проверку об определении статистики, не генерирующей определенный классификатор.

С другой стороны, контролируемая стратификация ставит под угрозу техническую чистоту оценки, поскольку метки тестовых данных не должны влиять на обучение, но при стратификации используются при отборе обучающих примеров. Неуправляемая стратификация также возможна на основе распространения аналогичных данных, рассматривая только атрибуты данных, а не истинный класс. См., Например, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 Н.А. Диамантидис, Д. Карлис, Е.А. Гиакумакис (1997), Неуправляемая стратификация перекрестной проверки для оценки точности.

Стратификация может также применяться к регрессии, а не к классификации, и в этом случае, как и в случае неконтролируемой стратификации, используется сходство, а не идентичность, но в контролируемой версии используется известное истинное значение функции.

Дальнейшими осложнениями являются редкие классы и многослойная классификация, где классификации делаются по нескольким (независимым) измерениям. Здесь кортежи истинных меток во всех измерениях можно рассматривать как классы с целью перекрестной проверки. Однако не все комбинации обязательно встречаются, и некоторые комбинации могут быть редкими. Редкие классы и редкие комбинации - проблема в том, что класс / комбинация, которая встречается по крайней мере один раз, но менее K раз (в K-CV), не может быть представлена во всех тестовых сгибах. В таких случаях вместо этого можно было бы рассмотреть форму многослойной бустрапинга (выборка с заменой для создания полноразмерного тренировочного сгиба с ожидаемыми повторениями и 36,8% ожидаемыми невыбранными для тестирования, причем один экземпляр каждого класса был выбран изначально без замены для тестового сгиба) ,

Другой подход к многослойной стратификации состоит в том, чтобы попытаться расслоить или загрузить каждое измерение класса отдельно, не пытаясь обеспечить репрезентативный выбор комбинаций. С метками L и N экземплярами и экземплярами Kkl класса k для метки l мы можем произвольно выбирать (без замены) из соответствующего набора маркированных экземпляров Dkl приблизительно N / LKkl экземпляров. Это не обеспечивает оптимального баланса, а скорее ищет баланс эвристически. Это может быть улучшено путем запрета выбора меток в пределах или сверх квоты, если нет выбора (так как некоторые комбинации не встречаются или встречаются редко). Проблемы обычно означают, что данных слишком мало или измерения не являются независимыми.

— Дэвид М.В. Пауэрс
источник

5

Среднее значение отклика примерно одинаково во всех сгибах - это еще один способ сказать, что доля каждого класса во всех сгибах примерно одинакова.

Например, у нас есть набор данных с 80 записями класса 0 и 20 записями класса 1. Мы можем получить среднее значение отклика (80 * 0 + 20 * 1) / 100 = 0,2, и мы хотим, чтобы 0,2 было средним значением отклика всех сгибов. Это также быстрый способ в EDA измерить, является ли данный набор данных несбалансированным вместо подсчета.

— Люси Лу
источник