Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации текста. Мне было просто интересно, что люди думают о масштабируемости R, когда дело доходит до классификации текста.
Я, скорее всего, столкнусь с данными большого размера (~ 300 тыс. Измерений). Я рассматриваю использование SVM и Random Forest, в частности, в качестве алгоритмов классификации.
Будут ли библиотеки R масштабироваться до размера моей проблемы?
Спасибо.
РЕДАКТИРОВАТЬ 1: Просто чтобы уточнить, мой набор данных, вероятно, будет иметь 1000-3000 строк (возможно, немного больше) и 10 классов.
РЕДАКТИРОВАТЬ 2: Поскольку я очень плохо знаком с R, я буду просить плакаты быть более конкретными, где это возможно. Например, если вы предлагаете рабочий процесс / конвейер, пожалуйста, не забудьте упомянуть библиотеки R, участвующие в каждом шаге, если это возможно. Некоторые дополнительные указатели (к примерам, образцу кода и т. Д.) Будут обледенением.
РЕДАКТИРОВАТЬ 3: Во-первых, спасибо всем за ваши комментарии. И во-вторых, я прошу прощения, возможно, я должен был дать больше контекста для проблемы. Я новичок в R, но не так много, чтобы классифицировать текст. Я уже выполнил предварительную обработку (определение стволов, удаление стоп-слов, преобразование tf-idf и т. Д.) Для какой-то части своих данных с помощью пакета tm , просто чтобы почувствовать вещи. tm был настолько медленным даже на 200docs, что я беспокоился о масштабируемости. Затем я начал играть с FSelector, и даже это было очень медленно. И это тот момент, когда я сделал свой ОП.
РЕДАКТИРОВАТЬ 4: Мне только что пришло в голову, что у меня есть 10 классов и около 300 учебных документов на класс, и я фактически строю матрицу termXdoc из всего учебного набора, что приводит к очень высокой размерности. Но как насчет того, чтобы свести каждую задачу классификации 1 из k к серии задач двоичной классификации? Это значительно сократило бы количество учебных документов (и, следовательно, размерности) на каждом из этапов k-1, не так ли? Так этот подход хорош? Как это сравнивается с точки зрения точности с обычной многоклассовой реализацией?