Свободный набор данных для очень высокой размерной классификации [закрыто]

35

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)?

Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных

Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я предлагаю следующие правила:

Один пост на набор данных
нет ссылки на набор данных
каждый набор данных должен быть связан с
- имя (чтобы понять, что речь идет о) и ссылку на набор данных (R наборы данных могут быть названы с именем пакета)
- количество объектов (допустим, что это p ), размер набора данных (допустим, это n ) и количество меток / класса (пусть это k )
- типичный уровень ошибок из вашего опыта (укажите используемый алгоритм в словах) или из литературы (в последнем случае ссылка на статью)

— robin girard
источник

+1, но у NIPS2003 есть только train.labels - в документе NIPS2003 четко сказано, что «метки валидации и тестовых наборов не разглашаются».

— Денис

Спасибо. Комментарий о NIPS для ответа от @mbq.

— Робин Джирард

У кого-нибудь здесь есть высокомерный набор данных с более чем двумя метками классов?

— hlin117

3

Доротея
n = 1950
p = 100000 (0,1M, половина - это искусственно добавленный шум)
k = 2 (~ 10x несбалансировано)
Из NIPS2003 .

— оборота user88
источник

Можете ли вы объяснить, как это 100000 функций? Я смотрю на данные обучения, и в каждой строке может быть 2500 целых чисел в строке.

— JeremyKun

Это разреженный массив, целое число N означает, что значение атрибута N равно 1.

3

Жизет
n = 13500
p = 5000 (половина - это искусственно добавленный шум)
k = 2 (сбалансировано).
Из NIPS2003 .

— user88
источник

3

Декстер
n = 2600
p = 20000 (10k + 53 - искусственный шум)
k = 2 (сбалансированный)
Из NIPS2003 .

— оборота user88
источник

Я не понимаю ... один набор на человека?

@robin & @mbq Я бы посоветовал хранить один набор данных на пост. Это так, чтобы люди могли указать голосами, кто из предложенных там также предлагает / поддерживает

— Питер Смит

@ Питер, хорошо, я следую твоей идее, я соответственно изменил вопрос.

— Робин Жирар

3

Arcene
n = 900
p = 10000 (3k - это искусственно добавленный шум)
k = 2 (~ сбалансировано)
Из NIPS2003 .

— user88
источник

2

Простата (матрица генной экспрессии)

к = 2
п = 48 + 52
р = 6033

Доступно через (среди прочего) R пакет SPLS имя набора данных: простата

коэффициент ошибок = 3/102 (см. здесь ) также я думаю, что есть бумага, которая показывает 1/102 ошибок. Я бы сказал, что это простой тестовый пример.

— оборота Робин Жирар
источник