Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная веб-страница принадлежит либо к классу " Позитив", либо к классу " Не позитив" .
У меня уже есть большой обучающий набор веб-страниц для класса Позитив . Но как создать тренировочный набор для класса Non-Positive, который будет максимально представительным? Я имею в виду, я мог бы использовать все и вся для этого класса. Могу ли я просто собрать несколько произвольных страниц, которые определенно не принадлежат классу Positive ? Я уверен, что эффективность алгоритма классификации текста (я предпочитаю использовать алгоритм Наивного Байеса) сильно зависит от того, какие веб-страницы я выберу для класса Non-Positive .
Так что мне делать? Может кто-нибудь дать мне совет? Большое спасибо!