Во-первых, я бы порекомендовал начать с примера данных, которые предоставляются с программным обеспечением. Большинство дистрибутивов программного обеспечения включают примеры данных, которые вы можете использовать для ознакомления с алгоритмом, не имея дело с типами данных и переводя данные в правильный формат для алгоритма. Даже если вы строите алгоритм с нуля, вы можете начать с примера из аналогичной реализации и сравнить производительность.
Во-вторых, я бы порекомендовал поэкспериментировать с синтетическими наборами данных, чтобы понять, как работает алгоритм, когда вы знаете, как были сгенерированы данные, и отношение сигнал / шум.
В R вы можете перечислить все наборы данных в установленных пакетах с помощью этой команды:
data(package = installed.packages()[, 1])
Пакет R mlbench имеет реальные наборы данных и может генерировать синтетические наборы данных, которые полезны для изучения производительности алгоритма.
Python scikit-learn имеет примеры данных и также генерирует синтетический / игрушечный набор данных.
SAS имеет доступный для загрузки набор обучающих данных, а пример данных SPSS устанавливается вместе с программным обеспечением по адресу C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Наконец, я бы посмотрел на данные в дикой природе. Я бы сравнил производительность различных алгоритмов и параметров настройки на реальных наборах данных. Обычно это требует гораздо больше работы, потому что вы редко найдете набор данных с типами данных и структурами, которые вы можете вставить в свои алгоритмы.
Для данных в дикой природе, я бы порекомендовал:
Архив данных Reddit
Список KDnugget