Общедоступные наборы данных / API социальных сетей


26

В качестве дополнения к нашему большому списку общедоступных наборов данных , я хотел бы знать, существует ли какой-либо список общедоступных наборов данных социальных сетей / API для сканирования. Было бы очень хорошо, если бы наряду со ссылкой на набор данных / API были добавлены характеристики доступных данных. Такая информация должна быть и не ограничена:

  • название социальной сети;
  • какую информацию пользователя она предоставляет (сообщения, профиль, сеть дружбы, ...);
  • позволяет ли он сканировать свое содержимое через API (и скорость: 10 / мин, 1k / месяц, ...);
  • предоставляет ли он просто снимок всего набора данных.

Любые предложения и дополнительные характеристики, которые будут добавлены, приветствуются.

Ответы:


20

Пару слов об API социальных сетей. Около года назад я написал обзор API популярных социальных сетей для исследователей. К сожалению, это на русском языке. Вот резюме:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

  • почти все данные о твитах / текстах и ​​пользователях доступны;
  • отсутствие социально-демографических данных;
  • отличный потоковый API: полезен для обработки текста в реальном времени;
  • много обёрток для языков программирования;
  • Получение структуры сети (соединений) возможно, но затратно по времени (1 запрос в 1 минуту).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

  • ограничения скорости: около 1 запроса в секунду;
  • хорошо документировано, песочница присутствует;
  • FQL (SQL-подобный) и API Graph «обычный отдых»;
  • данные о дружбе и социально-демографические особенности присутствуют;
  • много данных находится за горизонтом событий : только данные друзей и друзей друзей более или менее полны, почти ничего нельзя исследовать в отношении случайного пользователя;
  • некоторые странные ошибки API, и похоже, что это никого не волнует (например, некоторые функции доступны через FQL, но не через синоним Graph API).

Instagram ( http://instagram.com/developer/ )

  • ограничения скорости: 5000 запросов в час;
  • API реального времени (например, Streaming API для Twitter, но с фотографиями) - подключение к нему немного сложнее: используются обратные вызовы;
  • отсутствие социально-демографических данных;
  • фотографии, фильтры данных доступны;
  • неожиданные недостатки (например, возможно собрать только 150 комментариев к записи / фотографии).

Foursquare ( https://developer.foursquare.com/overview/ )

  • ограничения скорости: 5000 запросов в час;
  • королевство геосоциальных данных :)
  • совершенно закрыт от исследований из-за проблем с конфиденциальностью. Для сбора данных о проверках необходимо создать составной парсер, работающий сразу с 4sq, bit.ly и twitter API;
  • еще раз: отсутствие социально-демографических данных.

Google+ ( https://developers.google.com/+/api/latest/ )

  • около 5 запросов в секунду (попробуйте проверить);
  • основные методы: деятельность и люди;
  • как и в Facebook, много персональных данных для случайного пользователя скрыто;
  • отсутствие данных о пользовательских подключениях.

И вне конкуренции: я просмотрел социальные сети для русских читателей, а сеть №1 здесь - vk.com . Он переведен на многие языки, но популярен только в России и других странах СНГ. Ссылка на документацию API: http://vk.com/dev/ . И, с моей точки зрения, это лучший выбор для домашних исследований социальных сетей. По крайней мере, в России. Поэтому:

  • ограничения скорости: 3 запроса в секунду;
  • доступны общедоступные текстовые и медиаданные;
  • Доступны социодемографические данные: для случайного пользователя уровень доступности составляет около 60-70%;
  • также доступны связи между пользователями: доступны почти все данные о дружбе для случайного пользователя;
  • некоторые специальные методы: например, есть метод получения статуса онлайн / офлайн для конкретного пользователя в режиме реального времени, и можно построить график для его аудитории.

1
Абсолютная удивительность! На самом деле я ожидал, что что-то подобное распадется на множество ответов, и вы пришли, неся все: D Спасибо за ответ. Хорошая работа! :)
Рубенс

1
Я оставил за рамками LinkedIn, YouTube, Secret. Может быть, другие региональные сети (QQ?). И был бы рад получить любую информацию о них.
Собач

8

Это не социальная сеть как таковая, но Stackexchange периодически публикует весь свой дамп базы данных:

Вы можете извлечь некоторую социальную информацию, анализируя, какие пользователи спрашивают и отвечают друг другу. Приятно то, что, поскольку посты помечены тегами, вы можете легко анализировать суб-сообщества.


6

Хороший список общедоступных наборов данных социальных сетей можно найти на веб-сайте Stanford Network Analysis Project:

Наборы данных SNAP

Сайт содержит данные социальных сетей в Интернете (Facebook, Twitter, Google Plus), сети цитирования для академических журналов, сети совместных закупок у Amazon и несколько других типов сетей. Они имеют направленные, ненаправленные и двудольные графы, и все наборы данных являются снимками, которые можно загрузить в сжатом виде.


5

Пример из Германии: Xing сайт, похожий на linkedin, но ограниченный немецкоязычными странами.

Ссылка на сайт разработчика: https://dev.xing.com/overview

Предоставляет доступ к: профилям пользователей, беседам между пользователями (ограничено самим пользователем), объявлениям о вакансиях, контактам и контактам контактов, новостям из сети и некоторым API геолокации.

Да, у него есть API, но я не нашел информацию о ставке. Но мне кажется, что некоторая информация ограничена согласием пользователя.


4

Сетевой репозиторий ( http://networkrepository.com ) имеет множество социальных сетей, веб-графиков, биологических и мозговых сетей и т. Д. Кроме того, у них также есть интерактивные визуальные аналитические инструменты для сравнения / изучения различных социальных сетей.


2

Небольшую коллекцию таких ссылок можно найти здесь . Многие из них являются социальными графами.


Я очень благодарен вам за публикацию этой ссылки, но я ожидал, что ответы здесь укажут на общедоступный набор данных / API для социальной сети, а также опишут, что обеспечивается таким источником (или скорость загрузки сообщений, или какая информация о пользователях). Поскольку ваш ответ, я думаю, было бы очень кстати в списке общедоступных наборов данных, которые у нас есть.
Рубенс

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.