Свободный набор данных для очень высокой размерной классификации [закрыто]


35

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)?

Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных

Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я предлагаю следующие правила:

  1. Один пост на набор данных
  2. нет ссылки на набор данных
  3. каждый набор данных должен быть связан с

    • имя (чтобы понять, что речь идет о) и ссылку на набор данных (R наборы данных могут быть названы с именем пакета)

    • количество объектов (допустим, что это p ), размер набора данных (допустим, это n ) и количество меток / класса (пусть это k )

    • типичный уровень ошибок из вашего опыта (укажите используемый алгоритм в словах) или из литературы (в последнем случае ссылка на статью)


+1, но у NIPS2003 есть только train.labels - в документе NIPS2003 четко сказано, что «метки валидации и тестовых наборов не разглашаются».
Денис

Спасибо. Комментарий о NIPS для ответа от @mbq.
Робин Джирард

У кого-нибудь здесь есть высокомерный набор данных с более чем двумя метками классов?
hlin117

Ответы:


3

Доротея
n = 1950
p = 100000 (0,1M, половина - это искусственно добавленный шум)
k = 2 (~ 10x несбалансировано)
Из NIPS2003 .


Можете ли вы объяснить, как это 100000 функций? Я смотрю на данные обучения, и в каждой строке может быть 2500 целых чисел в строке.
JeremyKun

Это разреженный массив, целое число N означает, что значение атрибута N равно 1.


3

Декстер
n = 2600
p = 20000 (10k + 53 - искусственный шум)
k = 2 (сбалансированный)
Из NIPS2003 .


Я не понимаю ... один набор на человека?

@robin & @mbq Я бы посоветовал хранить один набор данных на пост. Это так, чтобы люди могли указать голосами, кто из предложенных там также предлагает / поддерживает
Питер Смит

@ Питер, хорошо, я следую твоей идее, я соответственно изменил вопрос.
Робин Жирар


2

Простата (матрица генной экспрессии)

  • к = 2
  • п = 48 + 52
  • р = 6033

Доступно через (среди прочего) R пакет SPLS имя набора данных: простата

коэффициент ошибок = 3/102 (см. здесь ) также я думаю, что есть бумага, которая показывает 1/102 ошибок. Я бы сказал, что это простой тестовый пример.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.