В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько:
- Follow-the-Regularized-Leader и зеркальный спуск: теоремы об эквивалентности и регуляризация L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Потоковое обучение: однопроходные SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: первичный оцененный суб-GrAdient SOlver для SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- или здесь: может ли SVM выполнять потоковое обучение по одному примеру за раз?
- Потоковая передача случайных лесов ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Тем не менее, я не смог найти никаких документов относительно того, как они сравниваются друг с другом. Кажется, что каждая статья, которую я читаю, проводит эксперименты с различными наборами данных.
Я знаю о софии-мл, ваубале ваббит, но они, кажется, реализуют очень мало методов по сравнению с огромным количеством существующих методов!
Разве менее распространенные алгоритмы недостаточно эффективны? Есть ли какая-нибудь статья, пытающаяся рассмотреть как можно больше методов?