Я планирую использовать классификатор линейных опорных векторов (SVM) Scikit для классификации текста в корпусе, состоящем из 1 миллиона помеченных документов. Я планирую сделать следующее: когда пользователь вводит какое-либо ключевое слово, классификатор сначала классифицирует его по категории, а затем в документах этой категории будет выполняться последующий запрос на получение информации. У меня есть несколько вопросов:
- Как я могу подтвердить, что классификация не займет много времени? Я не хочу, чтобы пользователям приходилось тратить время на ожидание окончания классификации, чтобы получить лучшие результаты.
- Подходит ли для этого использование библиотеки Scikit Python для веб-сайтов / веб-приложений?
- Кто-нибудь знает, как amazon или flipkart выполняют классификацию пользовательских запросов, или они используют совершенно другую логику?