Существует несколько классических наборов данных для задач классификации / регрессии машинного обучения. Наиболее популярными являются:
- Набор данных Iris Flower ;
- Титаник Набор Данных ;
- Motor Trend Cars ;
- и т.п.
Но кто-нибудь знает подобные наборы данных для анализа сетей / теории графов? Более конкретно - я ищу наборы данных золотого стандарта для сравнения / оценки / обучения:
- центральные меры;
- алгоритмы кластеризации сети.
Мне не нужен огромный список общедоступных сетей / графиков, но пара действительно обязательных наборов данных.
РЕДАКТИРОВАТЬ:
Достаточно сложно предоставить точные функции для «набора данных золотого стандарта», но вот некоторые соображения. Я думаю, что настоящий классический набор данных должен удовлетворять следующим критериям:
- Многочисленные ссылки в статьях и учебниках;
- Включение в известные пакеты программного обеспечения для сетевого анализа;
- Достаточное время существования;
- Использование в ряде курсов по анализу графов.
Что касается моей области интересов, мне также нужны помеченные классы для вершин и / или предварительно вычисленные (или предопределенные) «оценки авторитета» (т. Е. Оценки центральности). Задав этот вопрос, я продолжил поиск, и вот несколько подходящих примеров:
- Zachary's Karate Club : введен в 1977 году, цитируется более 1,5 тыс. Раз (согласно Google Scholar), вершины имеют атрибут Faction (который можно использовать для кластеризации).
- Erdos Collaboration Network : к сожалению, я не нашел эту сеть в виде файла данных, но она довольно известна, и если кто-то обогатит сеть данными специализаций математиков, ее также можно будет использовать для тестирования алгоритмов кластеризации.