Стратификация направлена на то, чтобы гарантировать, что каждый склад представляет все слои данных. Обычно это делается контролируемым образом для классификации и имеет целью гарантировать, что каждый класс (приблизительно) одинаково представлен в каждой контрольной группе (которые, конечно, комбинируются друг с другом, образуя тренировочные группы).
Интуиция за этим связана с предвзятостью большинства алгоритмов классификации. Они имеют тенденцию одинаково взвешивать каждый экземпляр, что означает, что перепредставленные классы приобретают слишком большой вес (например, оптимизация F-меры, точность или дополнительная форма ошибки). Стратификация не так важна для алгоритма, который взвешивает каждый класс в равной степени (например, оптимизируя Kappa, Informedness или ROC AUC) или в соответствии с матрицей затрат (например, которая дает значение для каждого класса, правильно взвешенного и / или стоимость для каждого способа неправильная оценка). См., Например, DMW Powers (2014), Что F-мера не измеряет: особенности, недостатки, ошибки и исправления. http://arxiv.org/pdf/1503.06410
Одна конкретная проблема, которая важна даже для беспристрастных или сбалансированных алгоритмов, заключается в том, что они, как правило, не способны изучать или тестировать класс, который вообще не представлен в сгибе, и, более того, даже в случае, когда используется только один из классов. представленный в сгибе не допускает обобщения для выполнения соотв. оценены. Однако даже это соображение не является универсальным и, например, не применяется так много к обучению в одном классе, которое пытается определить, что является нормальным для отдельного класса, и эффективно идентифицирует выбросы как другой класс, учитывая эту перекрестную проверку об определении статистики, не генерирующей определенный классификатор.
С другой стороны, контролируемая стратификация ставит под угрозу техническую чистоту оценки, поскольку метки тестовых данных не должны влиять на обучение, но при стратификации используются при отборе обучающих примеров. Неуправляемая стратификация также возможна на основе распространения аналогичных данных, рассматривая только атрибуты данных, а не истинный класс. См., Например,
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
Н.А. Диамантидис, Д. Карлис, Е.А. Гиакумакис (1997), Неуправляемая стратификация перекрестной проверки для оценки точности.
Стратификация может также применяться к регрессии, а не к классификации, и в этом случае, как и в случае неконтролируемой стратификации, используется сходство, а не идентичность, но в контролируемой версии используется известное истинное значение функции.
Дальнейшими осложнениями являются редкие классы и многослойная классификация, где классификации делаются по нескольким (независимым) измерениям. Здесь кортежи истинных меток во всех измерениях можно рассматривать как классы с целью перекрестной проверки. Однако не все комбинации обязательно встречаются, и некоторые комбинации могут быть редкими. Редкие классы и редкие комбинации - проблема в том, что класс / комбинация, которая встречается по крайней мере один раз, но менее K раз (в K-CV), не может быть представлена во всех тестовых сгибах. В таких случаях вместо этого можно было бы рассмотреть форму многослойной бустрапинга (выборка с заменой для создания полноразмерного тренировочного сгиба с ожидаемыми повторениями и 36,8% ожидаемыми невыбранными для тестирования, причем один экземпляр каждого класса был выбран изначально без замены для тестового сгиба) ,
Другой подход к многослойной стратификации состоит в том, чтобы попытаться расслоить или загрузить каждое измерение класса отдельно, не пытаясь обеспечить репрезентативный выбор комбинаций. С метками L и N экземплярами и экземплярами Kkl класса k для метки l мы можем произвольно выбирать (без замены) из соответствующего набора маркированных экземпляров Dkl приблизительно N / LKkl экземпляров. Это не обеспечивает оптимального баланса, а скорее ищет баланс эвристически. Это может быть улучшено путем запрета выбора меток в пределах или сверх квоты, если нет выбора (так как некоторые комбинации не встречаются или встречаются редко). Проблемы обычно означают, что данных слишком мало или измерения не являются независимыми.