Как измерить «округлость» участников SE?

12

Stack Exchange, как мы все знаем, представляет собой набор сайтов вопросов и ответов с разнообразными темами. Предполагая, что каждый сайт независим от друг друга, учитывая статистику пользователя, как вычислить его "округлость" по сравнению со следующим парнем? Какой статистический инструмент я должен использовать?

Если честно, я не совсем знаю, как математически определить «округлость», но она должна иметь следующие характеристики:

При прочих равных условиях, чем больше повторений у пользователя, тем более он округлен
При прочих равных условиях, чем больше сайтов принимает участие пользователь, тем более он округлен.
Ответ или вопрос не влияют на округлость

ranking diversity

— Гравитон
источник

Как бы вы определили «округлость» в контексте SE, прежде всего?

— JM не статистика

@ JM, я не знаю, поэтому я хотел бы надеяться, что сообщество поможет немного конкретизировать концепции.

— Гравитон

1

С риском походить на одного из полицейских ПК с коленом - давайте включим женщин, которые посещают наш сайт. @Graviton, все ваши ссылки на мужчин.

— rolando2

Правильность округления, определяемая идентификатором пользователя, не говорит о правильности округления участника , поскольку у участника могут быть разные идентификаторы пользователя для разных SE. Некоторые идентификаторы пользователей могут также использовать более одного участника (например, партнеры, которые имеют общую учетную запись).

— Алексис

7

Вам также необходимо учитывать сходство между сайтами. Кто-то, кто участвует в StackOverflow и Seasoned Advice , более разносторонний, чем тот, кто участвует в SO и CrossValidated, который, в свою очередь (я бы сказал,) более разносторонний, чем тот, кто участвует в SO и Программистах . Существует, несомненно, много способов сделать это, но вы можете проверить перекрывающуюся регистрацию, чтобы просто почувствовать это.

— Мэтт Паркер
источник

1

@Matt Parker, хорошие моменты - если репутация является частью метрики, я также думаю, что вам нужно посмотреть, как этот представитель был получен. Человек, который получил свою репутацию из небольшого выигрыша по многим вопросам / ответам, вероятно, был бы более округлым, чем человек, который получил такую же репутацию по одному вопросу, который получил тонну положительных голосов.

— DQdlM

3

@Kenny Это хорошая мысль, и я думаю, что то, как вы это сформулировали, является правильным, но я чувствую, что многие из наиболее высоко голосуемых вопросов и ответов часто наименее свидетельствуют об опыте, тогда как хорошие ответы на действительно сложные технические вопросы часто имеют очень низкие голоса.

— Мэтт Паркер

1

Проверьте ответы whuber, например. Его ответы одинаково превосходны, так что же отличает его высоко оцененных ответов от его 1-избирателей? Когда я смотрю на первое, я вижу превосходные ответы на вопросы, которые я понимаю; у последнего превосходные ответы на вопросы, которые я даже не начинаю задыхаться. Таким образом, ответы с низким голосом могут фактически указывать на глубокую специализацию (но учтите: если вам интересно, как выглядит хорошо разносторонний пользователь SE, то это так ).

— Мэтт Паркер

1

На самом деле, @Graviton, возможно, было бы целесообразно найти пользователей с несколькими сайтами, которых вы считаете подходящими, и посмотреть, как они работают в различных ваших показателях.

— Мэтт Паркер

1

@KennyPeanuts, в дополнение к вышеприведенному пункту @ Мэтта, на сайтах SE, похоже, также есть заметное количество пользователей, которые отвечают на огромное количество вопросов, но при этом получают мало голосов. Это обычно не свидетельствует об опыте или округлости. (Хотя, это один из самых простых стратегий , чтобы собрать «репутации»).

— кардинал

6

ПРИМЕР: скажем, есть три сайта, и мы хотим сравнить универсальность пользователей A, B, C. Мы записываем репутацию пользователей на трех сайтах в векторной форме:

Пользователь A: [23, 23, 0]

Пользователь Б: [15, 15, 0]

Пользователь C: [10, 10, 10]

Мы бы посчитали A более округлым, чем B (их репутация распределена равномерно по двум сайтам, но у A более высокая репутация). Кроме того, мы считаем, что C более округлый, чем B (у них одинаковая общая репутация, но C имеет равномерный разброс по большому количеству сайтов). Неясно, следует ли считать A более округленным, чем C, или наоборот. ,

Пусть , , будут вышеупомянутыми векторами репутации соответственно. $x_A$ $x_B$ $x_C$

Мы хотим измерить «округлость» пользователя функцией вектора его репутации . Согласно вышесказанному, мы бы хотели, чтобы наша функция удовлетворяла и . $f(x)$ $f$ $f(x_A) > f(x_B)$ $f(x_C) > f(x_B)$

Любая которая вогнута и увеличивается , сделает свое дело. $f(x)$

Два общих примера выпуклых функций - это «дробная норма»

f ([x_{1}, . . ., x_{m}]) = \sum_{i} x_{i}^{p}

$f([x_1,...,x_m]) = \sum_i x_i^p$

для . $0 < p < 1$

Взяв , рассчитаем $p = 1/2$

f (x_{A}) = 2 \sqrt{23} \approx 9.6

$f(x_A) = 2\sqrt{23} \approx 9.6$

f (x_{B}) = 2 \sqrt{15} \approx 7.7

$f(x_B) = 2\sqrt{15} \approx 7.7$

f (x_{C}) = 3 \sqrt{10} \approx 9.5

$f(x_C) = 3\sqrt{10} \approx 9.5$

Согласно норме, пользователь А будет считаться наиболее округлым из трех с небольшим запасом по сравнению с пользователем С. $1/2$

Другой выбор для - это (масштабированная) энтропия Шеннона $f$

f ([x_{1}, . . ., x_{m}]) = - \sum_{i} x_{i} \log (x_{i} / c) .

$f([x_1,...,x_m]) = -\sum_i x_i \log(x_i/c).$

где . $c = \sum_i x_i$

Если взять за масштабированную энтропию Шеннона, то мы вычислим $f$

f (x_{A}) = 46 \log (2) \approx 31.9

$f(x_A) = 46 \log(2) \approx 31.9$

f (x_{B}) = 30 \log (2) \approx 20.8

$f(x_B) = 30 \log(2) \approx 20.8$

f (x_{C}) = 30 \log (3) \approx 33.0

$f(x_C) = 30 \log(3) \approx 33.0$

Измеряемая по масштабированной энтропии Шеннона, мы бы сказали, что C - самая округлая из трех, а A - вторая по округленности.

РЕДАКТИРОВАТЬ: я первоначально сказал, что функция должна быть выпуклой; обратное верно. $f(x)$

EDIT2: добавлен пример в свете комментария whuber.

— charles.y.zheng
источник

Отредактируйте: трудно понять, правы вы или нет, потому что в вашем ответе нет ничего, что описывало бы роль : вы никогда не используете ее и не говорите, как она будет применяться в этой задаче.

f

$f$

— whuber

(+1) Спасибо за редактирование: это делает идею намного яснее. Возможно, вы захотите привести пример в соответствие с подсчетами: похоже, пример касается трех пользователей и трех сайтов, а не четырех каждого. Кстати, как вы определяете, какие сайты использовать? Никто не активен на всех или даже на большинстве сайтов. Это проблема, потому что некоторые люди получают 1 точку повторения для начала, а другие получают 101. Если мы настаиваем на том, чтобы была постоянной в интервале чтобы справиться с этим, то невозможно, чтобы была вогнутой и увеличивалась при любых больших значениях !

f

$f$

[1, 101]

$[1,101]$

f

$f$

— whuber

Дробная норма не определена, когда любая x_i <0. Энтропия Шеннона не работает, когда любая x_i / c ≤ 0. Не имеет смысла, что мера хорошо округлости внезапно взорвется, когда некоторые x_i изменятся с 0 на -𝜀.

— 200_success

4

Это действительно очень интересный вопрос (на самом деле, я влюблен в идею моделирования сайтов обмена стека в целом).

Что касается универсальности, одним из способов оценки этого является использование тегов, на которые, как правило, отвечают конкретные пользователи, и их распределение по сайтам. Примеры могут сделать это более понятным.

Я являюсь членом TeX, StackOverflow, CrossValidated и AskUbuntu. Теперь я действительно помогаю только здесь и StackOverflow, и только о R на Stackoverflow. Итак, чтобы определить правильность округления, я бы посмотрел на a) количество тегов, которые имеют два общих сайта (для определения сходства между сайтами), и степень, в которой пользователь отвечает на вопросы на сайтах, которые имеют мало или совсем не имеют общих тегов.

Если, например, кто-то вносит вклад в теги Python в StackOverflow и готовит, этот человек более разносторонний, чем тот, кто отвечает на вопросы статистического программного обеспечения (например) по вопросам переполнения и статистики здесь.

Я надеюсь, что это несколько полезно.

— richiemorrisroe
источник

4

(+1) Кто-то, кто вносит вклад в теги Python как для SO, так и для приготовления пищи, имеет некоторые экзотические вкусы в еде :-) Я слышал, что это на вкус как курица.

— whuber

3

Если вы определите «округлость» как «участие во многих различных сайтах обмена стека», я бы вычислил некоторую метрику вклада для каждого сайта. Вы можете использовать общее количество сообщений, или среднее количество сообщений в день, или, возможно, репутацию. Затем посмотрите на распределение этой метрики по всем сайтам и вычислите ее асимметрию некоторым способом, который имеет смысл.

Другими словами, «всесторонне развитый» человек - это тот, кто вносит свой вклад во многие разные сайты, а «недостаточно хорошо округленный» человек - это тот, кто вносит основной вклад в один сайт. Вы можете еще больше улучшить это, масштабируя свою метрику с общим количеством пользователей по всем сайтам. то есть тот, кто внес большой вклад в разные сайты, должен считаться более всесторонним, чем тот, кто ничего не сделал для какого-либо сайта. Человек, который никогда не использовал SE, не очень хорошо округлен!

— Zach
источник

1

Уже много хороших ответов, так почему еще один? Это главным образом для того, чтобы привлечь внимание к интересным идеям, обсуждаемым здесь в кафе n-Category . В то время как разнообразие в экологии (и в других местах) в основном рассматривает только численность, следует также взглянуть на то, насколько похожи / различны разные виды.

Представление вида (или чего-либо подобного, например, сайтов SE ...) в виде точек в метрическом пространстве приводит к обобщению энтропии в метрические пространства, см., Например, «Максимальная энтропия метрического пространства» Тома Ленстера, Эмили Рофф . Те же идеи можно использовать на сайтах SE, рассматривая теги как точки в метрическом пространстве.

— Къетил б Халворсен
источник