Что это означает, когда все ребра в реальной сети / графике статистически так же вероятны случайно?


11

Я использовал метод извлечения магистральной сети, описанный в этой статье: http://www.pnas.org/content/106/16/6483.abstract

По сути, авторы предлагают метод, основанный на статистике, который дает вероятность для каждого ребра в графе, что ребро могло произойти случайно. Я использую типичное статистическое значение отсечения 0,05.

Я применял этот метод к нескольким реальным сетям, и, что интересно, некоторые сети не имеют столь значительных преимуществ. Я пытаюсь понять, что это влечет за собой для сети. Единственный раз, когда я применил этот метод к сети, и у него не было никаких значительных ребер, был случай, когда я применил этот метод к случайным сетям, которые я генерировал, и это именно то, что мы ожидали.

В качестве примера сети реального мира вы, возможно, видели недавнюю визуализацию сети The Economist, показывающую поляризацию Сената США за последние 25 лет: http://www.economist.com/news/united-states/21591190 США-амеба . Я применил метод извлечения магистральной сети к этим сетям, и никакие ребра не оказались столь значительными. Несмотря на то, что необработанные края, по-видимому, демонстрируют преимущественную привязанность и кластеризацию, это случайно? Является ли сеть голосования в Сенате случайной?

Ответы:


6

Нулевая гипотеза, стоящая за основными методами

[Нормализованные веса], которые соответствуют связям определенного узла степени k, получают случайным распределением из равномерного распределения.

Если нет никаких «значимых» ребер, нулевая гипотеза верна для всего графа, то есть веса ребер являются результатом узловой склонности к отправке и получению связей.

В зависимости от отношений, которые вы анализируете, метод магистрали может не подходить. Этот метод лучше всего подходит для сетей, которые концептуально являются однорежимными взвешенными сетями. Сети с двумя режимами могут проектироваться как взвешенная сеть с одним режимом, но часто это не имеет смысла.

Опираясь на ваш пример в Economist, не имеет смысла анализировать голосование в Сенате как однорежимную сеть, взвешенную по количеству общих голосов. Голосование в Сенате - это подписанные двухрежимные отношения. Сенаторы (i) имеют отношение к законодательным актам (j) и либо воздерживаются от голосования (0), либо голосуют за (+1) или против (-1) законодательства. Преобразование сети в сеть взвешенного однорежимного соглашения, а затем выполнение анализа магистрали по ней будет серьезным сокращением данных. Некоторые законодательные акты являются более политически противоречивыми, а некоторые имеют больше голосов, чем другие - основные методы не охватывают эти механизмы.

Вы можете рассмотреть тесты условного унифицированного графа (CUG) вместо методов магистрали. Идея этих тестов состоит в том, чтобы определить, являются ли определенные свойства уровня графа (например, кластеризация, средняя длина пути, централизация, гомофилия) случайными. Процесс выглядит следующим образом:

  1. Возьмите измерение f из наблюдаемого графика
  2. Создать случайный граф, который контролирует определенные свойства наблюдаемого графа (например, размер, количество ребер, распределение степеней и т. Д.)
  3. Возьмите измерение f из случайного графика
  4. Повторите шаги 2 и 3 много раз (например, 1000), чтобы получить нулевое распределение
  5. Сравните наблюдаемое измерение с нулевым распределением

Для двухрежимных сетей имеет смысл создать случайный граф, переставляя наблюдаемый граф (и tnet, и statnet в R имеют подпрограммы для перестановки двухрежимных сетей). Если для измерения f требуется сеть с одним режимом, процесс рандомизации должен быть выполнен в сети с двумя режимами, прежде чем проецировать ее как сеть с одним режимом.


4

В цитируемой статье авторы считают, что в сложной сети «узлы [] представляют элементы [смоделированной] системы, а взвешенные ребра идентифицируют наличие взаимодействия и его относительную силу» (выделено мной) ,

В сети, которую вы изучаете, если я правильно понимаю статью в Economist, существует связь между двумя сенаторами, если они проголосовали аналогичным образом по крайней мере 100 раз. Таким образом, ссылки не моделируют взаимодействия, но сходства (между поведением сенаторов при голосовании). Исходя из моего опыта, сети подобия не имеют такого же распределения степеней, как сети взаимодействия, в том смысле, что они не столь неоднородны. Кроме того, пороговый параметр, используемый при извлечении сети (здесь: 100), иногда сильно влияет на распределение степеней.

Более того, я не смог найти упоминания о каких-либо весах в статье «Экономиста». Тем не менее, наличие весов, по-видимому, является важным моментом в методе, описанном в работе Ángeles Serrano et al . Вы цитируете в своем вопросе.

Исходя из этих двух наблюдений, представляется возможным, что метод не работает точно с этими данными, потому что он не был разработан для обработки сетей такого типа. Может быть, вы можете проверить распределение степеней: сосредоточено ли оно на характеристическом значении или неоднородно? А весовые коэффициенты есть?


Я сам воспроизводил данные с исходного веб-сайта, поэтому я включил веса и не применял произвольный порог отсечения. Таким образом, я думаю, что данные, к которым я применил метод магистрали, не должны были быть затронуты этими проблемами. Хорошая идея по проверке распределения степеней - мне придется взглянуть!
Рэнди Олсон
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.