Состояние потокового обучения

В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько:

Follow-the-Regularized-Leader и зеркальный спуск: теоремы об эквивалентности и регуляризация L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
Потоковое обучение: однопроходные SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
Pegasos: первичный оцененный суб-GrAdient SOlver для SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
или здесь: может ли SVM выполнять потоковое обучение по одному примеру за раз?
Потоковая передача случайных лесов ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

Тем не менее, я не смог найти никаких документов относительно того, как они сравниваются друг с другом. Кажется, что каждая статья, которую я читаю, проводит эксперименты с различными наборами данных.

Я знаю о софии-мл, ваубале ваббит, но они, кажется, реализуют очень мало методов по сравнению с огромным количеством существующих методов!

Разве менее распространенные алгоритмы недостаточно эффективны? Есть ли какая-нибудь статья, пытающаяся рассмотреть как можно больше методов?

— RUser4512
источник

Если нет, то вы должны написать это сами :)

— Крис С

вы понимаете, что люди в академических кругах должны писать статьи / придумывать новые алгоритмы, и они будут искать наборы данных, на которых их алгоритм работает лучше всего. Я бы порекомендовал вам просто убедиться, что вы понимаете, как работает одна библиотека, например, vowpal-wabbit (т.е. все параметры и т. Д.).

— seanv507

Это на самом деле наоборот! Я понял, что люди выбрали лучший набор данных и, как правило, относительно молчат о том, как они перекрестно проверяют алгоритмы (как свои, так и конкурирующие методы). Я скорее ищу потоковую версию jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

Очень нравится статья JMLR, которую вы связали. Я сам так не знаю аналогичного сравнения для потоковых алгоритмов. Возможно, потому что потоковая передача является более нишевой, а также потому, что, хотя уже трудно сравнивать классификаторы для статических наборов данных, еще сложнее провести справедливое сравнение для потоковых данных.

— stats0007

Хотя они конкретно не отвечают на ваш вопрос, есть два связанных ресурса: « Оценка алгоритмов, которые учатся на потоках данных » Гамы и др., Где обсуждаются методы оценки, и MOA (Massive Online Analysis) , платформа с открытым исходным кодом для интеллектуального анализа потоков данных, которая включает в себя умение оценивать производительность.

— user77876

Насколько мне известно, тщательный обзор множества алгоритмов, аналогичный работе с Delgado, которую вы связали, недоступен, но предпринимались попытки собрать результаты для семейств алгоритмов.

Вот некоторые источники, которые я нахожу полезными (отказ от ответственности: я публикую в этой области, так что, скорее всего, я предвзят в своем выборе):

Опрос об ансамблевом обучении для классификации потоков данных (Опрос)
Онлайн обучение и онлайн выпуклая оптимизация (Технический отчет)
Онлайн машинное обучение в больших потоках данных (обзор)
Машинное обучение для потоков данных (книга)
Алгоритмы обучения деревьев и ансамблей регрессии на развивающихся потоках данных (кандидатская диссертация)
Обучение в рамках концепции Drift: обзор (обзор)
Оптимальное и адаптивное онлайн-обучение (кандидатская диссертация)
Адаптивное обучение и майнинг для потоков данных и частых паттернов (кандидатская диссертация)

Некоторые пакеты программного обеспечения:

Я могу добавить больше информации и источников, если это необходимо. Как и другие говорили, поле может использовать комплексное обследование.

— Бар
источник