Я изучаю классификацию SVM и сталкиваюсь с проблемой. Я не уверен, что у этой дилеммы есть терминология для этого.
Предположим, мы хотели бы классифицировать пациентов по SVM, учитывая образцы здоровых людей (обоих полов) и людей с раком печени (обоих полов). Если мы помечаем выборку здоровых людей как класс 1, а людей с раком - класс 2, мы можем обучить двоичную SVM и получить классификатор 1 для прогнозирования любого нового пациента. Теперь представьте себе другой сценарий. Предположим, что мы сначала делим все выборки по полу перед классификацией SVM. Для каждого пола мы по-прежнему помечаем здоровых пациентов и раковых пациентов на 2 класса и обучаем двоичную SVM для получения классификатора 2 и классификатора 3 для женских и мужских выборок соответственно. Вопрос в том, есть ли новая пациентка, какой классификатор 1 или 2 следует использовать для получения более точного прогноза? Вот дилемма для аргументов, которые я имею
(1) Когда количество выборок велико, прогноз должен быть более точным. Исходя из этого аргумента, классификатор 1 кажется хорошим выбором.
(2) Однако, если мы сначала разделим образцы на группы женщин и мужчин, классификатор 2 представляется лучшим выбором, поскольку новый пациент (неизвестный тестовый образец) - женщина.
Есть ли у дилеммы такого рода терминология, или кто-нибудь знает какую-либо дополнительную информацию или как решить проблему, подобную этой? Я даже не уверен, что это законный вопрос, и прошу прощения за наивный вопрос заранее. Спасибо