Следуют ли уникальные посетители сайта степенному закону?

Предположим, у меня есть упорядоченный вектор, где первый элемент - это количество посещений веб-сайта за определенный период времени по уникальному IP с наибольшим числом посещений, второй элемент - это количество посещений по уникальному IP со вторым наибольшее количество посещений и тд. Я понимаю, что могут быть вариации для каждого сайта, но есть ли вообще предполагаемая схема формы этого вектора? Соответствует ли оно, например, степенному распределению?

web power-law

— Джон Смарк
источник

IP-адреса не будут особенно подходить для людей из-за динамической адресации и различных других проблем (таких как люди, использующие несколько компьютеров). Если бы я хотел проверить эту гипотезу, я бы использовал идентификатор посетителя, а не IP-адрес.

— richiemorrisroe

Нет, уникальные посетители сайта не следуют степенному закону.

В последние несколько лет все более строгие требования предъявляются к проверке претензий в отношении степенного права (например, Clauset, Shalizi and Newman 2009). По-видимому, прошлые претензии часто не были хорошо протестированы, и было обычным представлять данные в масштабе логарифмического масштаба и полагаться на «тест на глазное яблоко», чтобы продемонстрировать прямую линию. Теперь, когда формальные тесты стали более распространенными, многие дистрибутивы не соответствуют степенным законам.

Две лучшие из известных мне ссылок, в которых рассматриваются посещения пользователей в Интернете, - это Али и Скарр (2007) и Клаусет, Шализи и Ньюман (2009).

Али и Скарр (2007) рассмотрели случайную выборку кликов пользователей на сайте Yahoo и пришли к выводу:

Преобладающая мудрость заключается в том, что распределение веб-кликов и просмотров страниц происходит без масштабного распределения степенного закона. Однако мы обнаружили, что статистически значительно лучшим описанием данных является масштабно-чувствительное распределение Ципфа-Мандельброта, и что их смеси дополнительно улучшают подбор. Предыдущие анализы имеют три недостатка: они использовали небольшой набор распределений кандидатов, анализировали устаревшее поведение пользователей в Интернете (около 1998 г.) и использовали сомнительные статистические методологии. Хотя мы не можем исключить, что более подходящее распределение не может быть найдено в один прекрасный день, мы можем с уверенностью сказать, что масштабно-чувствительное распределение Ципфа-Мандельброта обеспечивает статистически значительно более сильное соответствие данных, чем безмасштабный степенной закон или Zipf на множество вертикалей из домена Yahoo.

Вот гистограмма отдельных кликов пользователей за месяц и их одинаковые данные на графике log-log с различными моделями, которые они сравнивали. Данные явно не находятся на прямой линии регистрации, ожидаемой от безмасштабного распределения энергии.

Рисунки 2 и 4 от Али и Скарра

Clauset, Shalizi and Newman (2009) сравнили объяснения степенного закона с альтернативными гипотезами, использующими тесты отношения правдоподобия, и пришли к выводу, что как веб-хиты, так и ссылки «не могут считаться правдоподобными. Их данные для первых были веб-хиты клиентами интернет-службы America Online за один день, а для последних были ссылки на веб-сайты, найденные в 1997 году при просмотре около 200 миллионов веб-страниц. На рисунках ниже представлены кумулятивные функции распределения P (x) и их степенные зависимости максимального правдоподобия.

введите описание изображения здесь

Для обоих этих наборов данных Clauset, Shalizi и Newman обнаружили, что распределения мощности с экспоненциальным сечением для изменения экстремального хвоста распределения были явно лучше, чем распределения с чисто степенным законом, и что логарифмически-нормальные распределения также хорошо подходят. (Они также смотрели на экспоненциальные и вытянутые экспоненциальные гипотезы.)

Если у вас есть набор данных в руке, и вы не просто любопытны, вам следует подогнать его под разные модели и сравнить их (в R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, ниже. хвост = ЛОЖЬ)). Признаюсь, я понятия не имею, как смоделировать модель ZM с поправкой на ноль. Рон Пирсон написал в блоге о дистрибутивах ZM, и, очевидно, существует пакет z zipfR. Я бы, наверное, начал с негативной биномиальной модели, но я не настоящий статистик (и мне бы очень хотелось их мнение).

(Я также хочу, чтобы второй комментатор @richiemorrisroe выше указал, что данные, вероятно, зависят от факторов, не связанных с поведением отдельных людей, таких как программы, сканирующие Интернет и IP-адреса, которые представляют компьютеры многих людей.)

Документы упоминаются:

— MattBagg
источник

@MattBag, выглядит интересно, попробую это на этом деле stats.stackexchange.com/q/41286/13201

— FredrikD