Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации


20

Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации.

Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе, чем случайная выборка?

Приложение, для которого я хотел бы использовать стратифицированную выборку для подготовки данных, представляет собой классификатор случайных лесов, обученный на исходного набора данных. Перед классификатором есть также этап генерации синтетической выборки (SMOTE [1]), который уравновешивает размер классов.23

[1] Чавла, Нитеш В. и др. « SMOTE: синтетическая техника избыточной выборки меньшинств ». Журнал исследований искусственного интеллекта 16 (2002): 321-357.

Ответы:


20

Стратифицированная выборка направлена ​​на разделение набора данных таким образом, чтобы каждое разделение было сходным по отношению к чему-либо.

В условиях классификации часто выбирается так, чтобы наборы поездов и тестов имели примерно такой же процент выборок каждого целевого класса, как и полный набор.

В результате, если набор данных имеет большое количество каждого класса, стратифицированная выборка почти такая же, как случайная выборка. Но если один класс недостаточно представлен в наборе данных, что может иметь место в вашем наборе данных, так как вы планируете избыточную выборку для класса меньшинства, тогда стратифицированная выборка может дать другое распределение целевых классов в наборах поездов и тестов, чем какое случайное выборка может дать.

Обратите внимание, что стратифицированная выборка также может быть спроектирована так, чтобы равномерно распределить некоторые функции в следующем наборе поездов и тестов. Например, если каждая выборка представляет одного человека, а одна особенность - это возраст, иногда полезно иметь одинаковое распределение по возрасту как в поезде, так и в тестовом наборе.

FYI:

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.