Я рассматриваю возможность использования библиотек Python для проведения экспериментов по машинному обучению. До сих пор я полагался на WEKA, но в целом был довольно недоволен. Это связано прежде всего с тем, что я обнаружил, что WEKA не так хорошо поддерживается (очень мало примеров, документации мало, а поддержка сообщества менее чем желательна в моем опыте), и я оказался в затруднительном положении без помощи в будущем. Еще одна причина, по которой я обдумываю этот шаг, заключается в том, что мне действительно нравится Python (я новичок в Python) и не хочу возвращаться к кодированию на Java.
Итак, мой вопрос, что является более
- комплексный
- масштабируемые (100 тыс. функций, 10 тыс. примеров) и
- хорошо поддерживаются библиотеки для выполнения ML в Python?
Мне особенно интересно заниматься классификацией текста, и поэтому я хотел бы использовать библиотеку, которая имеет хорошую коллекцию классификаторов, методов выбора признаков (информационное усиление, хи-квадрат и т. Д.) И возможности предварительной обработки текста (определение текста, удаление стоп-слов). , TF-IDF и т. д.).
Основываясь на прошлых темах электронной почты здесь и в других местах, я до сих пор изучал PyML, scikits-learn и Orange. Каким был опыт людей в отношении вышеупомянутых 3 метрик, которые я упоминаю?
Любые другие предложения?