Ответы:
Большой индекс страниц Facebook был создан и доступен в виде торрента (он составляет ~ 2,8 ГБ) http://btjunkie.org/torrent/Facebook-directory-personal-details-for-100-million-users/3979e54c73099d291605e7579b90838c2cd86a8e9575
Наборы данных Twitter помечены на Infochimps: http://infochimps.com/tags/twitter
Набор данных lastfm доступен по адресу http://mtg.upf.edu/node/1671.
Просто нашел это: 476 миллионов твиттеров Twitter (через @yarapavan ).
Мы курировали набор данных Twitter для друзей пользователей в 2009 году, а затем в 2009 году. Вы можете найти больше информации здесь: http://strict.dista.uninsubria.it/?p=364
Социальный график Facebook, установки приложений и пользователи Last.fm, события, группы на http://odysseas.calit2.uci.edu/research/
Два набора данных (собранные в апреле-мае 2009 года), которые содержат репрезентативные выборки ~ 1 миллиона пользователей по всей сети Facebook, с несколькими аннотированными свойствами: для каждого пользователя выборки включены список друзей, параметры конфиденциальности и членство в сети. Третий набор данных (собранный в феврале 2008 г.) включает в себя двудольный график, который представляет установки приложений пользователями Facebook. Четвертый набор данных с ежедневными активными пользователями и установками приложений в течение 6 месяцев (собран с сентября 2007 г. по февраль 2008 г.). Пятый набор данных, который включает репрезентативную выборку пользователей Last.fm, полученную с использованием мультиграфической выборки (собранный в июле 2010 г.).
Хороший ресурс для поиска наборов данных:
/ r / наборы данных на Reddit.
Быстрый взгляд на эту страницу показывает этот источник , который может содержать что-то полезное для вас.
Эта статья использует набор данных facebook, который доступен здесь. Вот описание от авторов:
Данные включают полный набор узлов и ссылок (и некоторую демографическую информацию) из 100 американских колледжей и университетов из единовременного снимка в сентябре 2005 года.