Где я могу найти наборы данных, полезные для тестирования моих собственных реализаций машинного обучения? [закрыто]

В настоящее время я пытаюсь реализовать некоторые алгоритмы машинного обучения самостоятельно. Многие из них обладают неприятным свойством трудной отладки, некоторые ошибки не приводят к сбою программы, а скорее работают не так, как задумано, и кажется, что алгоритмы просто дают более слабые результаты.

Я бы хотел повысить уверенность в реализации, например, если бы у меня было несколько небольших наборов данных с дополнительной информацией «Алгоритмы X работали для Y итераций и имели результаты Z для этого набора данных», что было бы очень полезно. Кто-нибудь слышал о таких наборах данных?

dataset

— sjm.majewski
источник

Какие исследования вы провели, исследуя этот вопрос? На первый взгляд, можно подумать, что литература, которую вы используете для поиска этих алгоритмов, будет переполнена примерами наборов данных.

— whuber

Ну, я знаю ML в основном из университетского курса, Coursea, видео лекций в Интернете и нескольких статей, которые я читал на конкретные темы. Я знаю, что есть множество образцов наборов данных повсюду, но я ищу некоторые с информацией о том, как различные алгоритмы ML выполняются на них, чтобы я мог проверить свои собственные реализации.

— sjm.majewski

Недавно в ICML была хорошая статья о проблеме со стандартизированными наборами данных - она не дает вам слишком усердно думать о проблемах реального мира и беспорядке, который связаны с проблемами реального мира. Лично, когда я начал использовать данные из реального мира, мое мастерство как практикующего расцвело. Поэтому, хотя я не отговариваю вас от использования таких вещей, как UCI, в качестве трамплина или тестирования, следите за призом!

— Патрик Калдон

Вы должны указать, какой тип машинного обучения вы делаете. Наборы данных двоичной классификации отличаются от наборов данных функции приближения (регрессии).

— Дуглас Заре

stackoverflow.com/questions/3272806/…

— Абхишек Гупта

Ответы:

Из хранилища машинного обучения UC Irvine :

В настоящее время мы поддерживаем 223 набора данных в качестве услуги для сообщества машинного обучения. Вы можете просмотреть все наборы данных через наш интерфейс с возможностью поиска. Наш старый веб-сайт все еще доступен для тех, кто предпочитает старый формат. ... Если вы хотите пожертвовать набор данных, ознакомьтесь с нашей политикой пожертвования. ... Мы также создали зеркальный сайт для репозитория.

Кроме того, следующий набор данных MIAS был широко использован и изучен:

При тестировании алгоритма рекомендуется использовать стандартную тестовую базу данных (набор данных), чтобы исследователи могли напрямую сравнивать результаты. Большинство маммографических баз данных не являются общедоступными. Наиболее легко доступными базами данных и, следовательно, наиболее часто используемыми базами данных являются база данных Mammographic Image Analysis Society (MIAS) и цифровая база данных для скрининговой маммографии (DDSM). Кроме того, в настоящее время существует несколько проектов по разработке новых баз данных маммографических изображений, а также несколько старых проектов.

— deepML
источник

+1 Если вы продолжаете находить больше источников, пожалуйста, не стесняйтесь дополнить этот ответ.

— whuber

Репозиторий UCI, упомянутый Башаром, вероятно, является самым большим, тем не менее я хотел добавить пару небольших коллекций, с которыми я столкнулся:

Наборы данных из библиотеки Mulan Java
Наборы данных из лаборатории Auton Школы компьютерных наук Университета Карнеги-Меллона
Наборы данных, используемые в Книге Элементы Статистического Обучения
Несколько наборов данных с соревнований Кубка KDD
Наборы данных на факультете статистики Мюнхенского университета

— sebp
источник