Прежде всего, я хотел бы описать некоторые распространенные макеты, которые используются в книгах Data Mining, и объяснить, как работать с несбалансированными наборами данных . Обычно основной раздел называется несбалансированными наборами данных, и они охватывают эти два подраздела: чувствительная к затратам классификация и методы выборки.
Кажется, что, столкнувшись с проблемой редкого класса, вы можете выполнить как чувствительную к затратам классификацию, так и выборку. Вместо этого я думаю, что следует применять чувствительные к стоимости методы, если редкий класс также является целью классификации, а неправильная классификация записи этого класса является дорогостоящей.
С другой стороны, методы выборки, такие как избыточная выборка и недостаточная выборка, полезны, если целью классификации является хорошая точность в целом, без сосредоточения внимания на конкретном классе.
Это убеждение исходит из обоснования MetaCost, который является общим способом сделать классификатор чувствительным к затратам: если кто-то хочет сделать классификатор чувствительным к затратам, чтобы наказать штраф за ошибочную классификацию редкого класса, ему следует пересмотреть другой класс. , Грубо говоря, классификатор пытается адаптироваться к другому классу, и он становится специфичным для редкого класса.
Это противоположность передискретизации редкого класса, который обычно предлагается для решения этой проблемы. Чрезмерная выборка редкого класса или недостаточная выборка другого класса полезна для повышения общей точности.
Пожалуйста, было бы здорово, если бы вы подтвердили мои мысли.
Итак, общий вопрос, стоящий перед несбалансированным набором данных:
Стоит ли пытаться получить набор данных, который насчитывает столько же редких записей, сколько и другие?
Мой ответ будет, если вы ищете точность: ОК. Вы можете выполнить это либо, обнаружив более редкие примеры классов, либо удалив некоторые записи другого класса.
Если вы сосредотачиваетесь на редком классе, используя технику, чувствительную к затратам, я бы ответил: вы можете найти только более редкий пример класса, но не должны удалять записи другого класса. В последнем случае вы не сможете позволить классификатору адаптироваться к другому классу, и редкая ошибка ошибочной классификации класса может возрасти.
Что бы вы ответили?