Состояние потокового обучения


25

В последнее время я работал с большими наборами данных и нашел много статей о потоковых методах. Назвать несколько:

Тем не менее, я не смог найти никаких документов относительно того, как они сравниваются друг с другом. Кажется, что каждая статья, которую я читаю, проводит эксперименты с различными наборами данных.

Я знаю о софии-мл, ваубале ваббит, но они, кажется, реализуют очень мало методов по сравнению с огромным количеством существующих методов!

Разве менее распространенные алгоритмы недостаточно эффективны? Есть ли какая-нибудь статья, пытающаяся рассмотреть как можно больше методов?


7
Если нет, то вы должны написать это сами :)
Крис С

1
вы понимаете, что люди в академических кругах должны писать статьи / придумывать новые алгоритмы, и они будут искать наборы данных, на которых их алгоритм работает лучше всего. Я бы порекомендовал вам просто убедиться, что вы понимаете, как работает одна библиотека, например, vowpal-wabbit (т.е. все параметры и т. Д.).
seanv507

1
Это на самом деле наоборот! Я понял, что люди выбрали лучший набор данных и, как правило, относительно молчат о том, как они перекрестно проверяют алгоритмы (как свои, так и конкурирующие методы). Я скорее ищу потоковую версию jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512

1
Очень нравится статья JMLR, которую вы связали. Я сам так не знаю аналогичного сравнения для потоковых алгоритмов. Возможно, потому что потоковая передача является более нишевой, а также потому, что, хотя уже трудно сравнивать классификаторы для статических наборов данных, еще сложнее провести справедливое сравнение для потоковых данных.
stats0007

1
Хотя они конкретно не отвечают на ваш вопрос, есть два связанных ресурса: « Оценка алгоритмов, которые учатся на потоках данных » Гамы и др., Где обсуждаются методы оценки, и MOA (Massive Online Analysis) , платформа с открытым исходным кодом для интеллектуального анализа потоков данных, которая включает в себя умение оценивать производительность.
user77876

Ответы:


1

Насколько мне известно, тщательный обзор множества алгоритмов, аналогичный работе с Delgado, которую вы связали, недоступен, но предпринимались попытки собрать результаты для семейств алгоритмов.

Вот некоторые источники, которые я нахожу полезными (отказ от ответственности: я публикую в этой области, так что, скорее всего, я предвзят в своем выборе):

Некоторые пакеты программного обеспечения:

Я могу добавить больше информации и источников, если это необходимо. Как и другие говорили, поле может использовать комплексное обследование.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.