Используйте liblinear на больших данных для семантического анализа


17

Я использую Libsvm для обучения данных и прогнозирования классификации по проблеме семантического анализа . Но он имеет производительность вопрос о крупномасштабных данных, поскольку касается семантического анализа п-размерности задачи.

В прошлом году был выпущен Liblinear , и он может решить проблемы с производительностью. Но это стоило слишком много памяти . Является ли MapReduce единственным способом решения проблемы семантического анализа больших данных? Или есть какие-то другие методы, которые могут улучшить узкое место в памяти на Liblinear ?

Ответы:


11

Обратите внимание, что существует ранняя версия LIBLINEAR, портированная на Apache Spark . Смотрите комментарии к списку рассылки для некоторых ранних деталей и сайт проекта .


Спасибо за Ваш ответ. Похоже, отличается от SVM. Я рассмотрю это. :)
Puffin GDI

4
Просто напоминание о том, что мы не поощряем ссылки за пределы сайта на ответ, потому что ссылки легко ломаются, в результате чего полезный в других отношениях ресурс сообщества превращается в тупик. Всегда лучше поместить ответ прямо в ваш пост.
Ана

1
Согласитесь с этим. На данный момент он едва существует как нечто большее, чем эта ссылка в любом случае. Я добавлю ссылку на базовый проект.
Шон Оуэн

10

Вы можете проверить ваубал ваббит . Он довольно популярен для крупномасштабного обучения и включает в себя параллельные положения.

С их сайта:

VW - это сущность скорости в машинном обучении, способная легко извлекать уроки из терафеатурных наборов данных. Благодаря параллельному обучению он может превысить пропускную способность любого сетевого интерфейса одной машины при линейном обучении, что является первым среди алгоритмов обучения.


1
Открытый исходный код и некоторые вики. Это выглядит хорошо. Спасибо за ваше предложение. :)
тупик GDI
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.