Как измерить дисперсию в данных частоты слов?

10

Как я могу определить количество дисперсии в векторе количества слов? Я ищу статистику, которая будет высокой для документа A, потому что она содержит много разных слов, которые встречаются редко, и низкой для документа B, потому что она содержит одно слово (или несколько слов), которые встречаются часто.

В более общем смысле, как можно измерить дисперсию или «разброс» в номинальных данных?

Есть ли стандартный способ сделать это в сообществе анализа текста?

— дБ»
источник

10

Для вероятностей (пропорций или долей) суммирующих 1, семейство инкапсулирует несколько предложений относительно мер (индексов, коэффициентов и т. Д.) На этой территории. таким образом $p_i$ $\sum p_i^a [\ln (1/p_i)]^b$

$a = 0, b = 0$ возвращает количество наблюдаемых отдельных слов, о которых проще всего думать, независимо от игнорирования различий между вероятностями. Это всегда полезно, если только в качестве контекста. В других областях это может быть количество фирм в секторе, количество видов, наблюдаемых на участке, и так далее. В общем, назовем это количеством различных предметов .
$a = 2, b = 0$ возвращает сумму квадратов вероятностей Джини-Тьюринга-Симпсона-Херфиндаля-Гиршмана-Гринберга, также известную как частота повторения, чистота, вероятность совпадения или гомозиготность. О нем часто сообщают как о его дополнении или взаимности, иногда под другими названиями, такими как примесь или гетерозиготность. В этом контексте это вероятность того, что два слова, выбранные случайным образом, являются одинаковыми, а его дополнение вероятность того, что два слова различны. Обратная величина интерпретируется как эквивалентное число одинаково общих категорий; это иногда называют эквивалентными числами. Такое толкование можно увидеть, заметив, что одинаково общих категорий (каждая вероятность, таким образом, $1 - \sum p_i^2$ $1 / \sum p_i^2$ $k$ $1/k$ ) подразумевает так что обратная величина вероятности равна просто . Выбор имени, скорее всего, предаст поле, в котором вы работаете. Каждое поле уважает своих собственных предков, но я рекомендую вероятность совпадения как простую и почти самоопределяющуюся. $\sum p_i^2 = k (1/k)^2 = 1/k$ $k$
$a = 1, b = 1$ возвращает энтропию Шеннона, часто обозначаемую и уже сообщенную прямо или косвенно в предыдущих ответах. Название энтропии застряло здесь, по смеси превосходных и не очень веских причин, даже изредка зависти физики. Обратите внимание, что является числами, эквивалентными для этой меры, как видно из заметки в аналогичном стиле, что одинаково общих категорий дают и, следовательно, возвращает вам . Энтропия имеет много великолепных свойств; «Теория информации» является хорошим поисковым термином. $H$ $\exp(H)$ $k$ $H = \sum^k (1/k) \ln [1/(1/k)] = \ln k$ $\exp(H) = \exp(\ln k)$ $k$

Формулировка находится в IJ Good. 1953. Популяционные частоты видов и оценка популяционных параметров. Биометрика 40: 237-264. www.jstor.org/stable/2333344 .

Другие основания для логарифма (например, 10 или 2) в равной степени возможны в зависимости от вкуса, прецедента или удобства, с простыми вариациями, подразумеваемыми для некоторых формул выше.

Независимые повторные открытия (или переосмысления) второй меры разнообразны по нескольким дисциплинам, и приведенные выше имена далеки от полного списка.

Связывание общих мер в семье не просто математически привлекательно. Он подчеркивает, что существует выбор меры в зависимости от относительных весов, применяемых к дефицитным и обычным предметам, и, таким образом, уменьшает любое впечатление от пристрастия, создаваемого небольшим количеством явно произвольных предложений. Литература в некоторых областях ослаблена бумагами и даже книгами, основанными на незначительных утверждениях, что некоторая мера, одобренная автором (ами), является лучшей мерой, которую должен использовать каждый.

Мои расчеты показывают, что примеры A и B ничем не отличаются, за исключением первой меры:

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(Некоторым может быть интересно отметить, что Симпсон, названный здесь (Эдвард Хью Симпсон, 1922), является тем же, что удостоен парадокса имени Симпсона. Он проделал отличную работу, но он не был первым, кто обнаружил что-то, для чего он назван, что в свою очередь является парадоксом Стиглера, который в свою очередь ....)

— Ник Кокс
источник

Это блестящий ответ (и намного легче следовать, чем Хорошая статья 1953 года;)). Спасибо!

— дБ

7

Я не знаю, есть ли общий способ сделать это, но это выглядит для меня аналогично вопросам неравенства в экономике. Если вы относитесь к каждому слову как к отдельному человеку и его количество сопоставимо с доходом, вам будет интересно сравнить, где мешок слов находится между крайностями каждого слова, имеющего одинаковое количество (полное равенство), или одним словом, имеющим все значения. а все остальные ноль. Сложность в том, что "нули" не отображаются, вы не можете иметь меньше, чем 1 в сумме слов, как обычно определяется ...

Коэффициент Джини для A равен 0,18, а для B - 0,43, что показывает, что A более «равен», чем B.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

Меня интересуют и другие ответы. Очевидно, что старомодная дисперсия в подсчетах также будет отправной точкой, но вам придется как-то масштабировать ее, чтобы сделать ее сопоставимой для сумок разных размеров и, следовательно, разных средних значений в слове.

— Питер Эллис
источник

Хороший вызов - коэффициент Джини тоже был моей первой мыслью! Ища в Google ученый, я не мог найти много прецедентов для использования его с текстовыми данными. Интересно, есть ли у сообщества НЛП / текстового поиска более стандартная мера для такого рода вещей ...

— дБ

Осторожно: по моим подсчетам, Джини было дано как минимум три разных показателя. В каждом случае история оправдана, но люди должны видеть используемую формулу.

— Ник Кокс

1

Хороший вопрос @NickCox - я думал об этом, поскольку он используется для неравенства, которое, я думаю, является наиболее распространенным: ellisp.github.io/blog/2017/08/05/weighted-gini Я видел разные методы оценка / расчет, но все с тем же базовым определением, в этом контексте. Я знаю, что люди, обучающиеся машинному обучению, используют его для чего-то другого, но не видели своего оправдания ...

— Питер Эллис

1

@dB 'Я нашел этот документ об использовании Gini в текстовом приложении : ethry.mlr.press/v10/sanasam10a/sanasam10a.pdf (я предпочитаю этот ответ принятому, просто потому, что он делает лучшую работу по распознаванию вашего A и Б!)

— Даррен Кук

5

В этой статье представлен обзор стандартных мер дисперсии, используемых лингвистами. Они перечислены как показатели дисперсии одного слова (они измеряют дисперсию слов по разделам, страницам и т. Д.), Но их можно использовать в качестве показателей дисперсии частоты слов. Стандартными статистическими являются:

макс-мин
среднеквадратичное отклонение
$CV$
$\chi^2$

Классика это:

$D = 1-\frac{CV}{\sqrt{n-1}}$
$S = N\frac{(\sum_{i=1}^{n}\sqrt{n_i})^2}{n}$
$D_2 = (\log_2N - \frac{\sum_{i=1}^n{n_i \log_2 n_i}}{N})/{\log_2(n)}$
$D_3 = \frac{1-\chi^2}{4N}$

$N$ $n$ $n_i$

В тексте также упоминаются еще две меры дисперсии, но они полагаются на пространственное расположение слов, так что это неприменимо к модели мешка слов.

Примечание . Я изменил исходную нотацию из статьи, чтобы сделать формулы более совместимыми со стандартной нотацией.

— Крис Новак
источник

f

$f$

x_{i}

$x_i$

v_{i}

$v_i$

1

Почему уравнения из источника не копируются точно (это не только смена меток в выражениях, но и смена выражения или, по крайней мере, не постоянное изменение меток / переменных)?

— Секст Эмпирик

@NickCox Спасибо, что заметили, что я исправил формулы, чтобы включить только определенные количества.

— Крис Новак

@MartijnWeterings Вы правы, что изначально статья имела дело с метриками дисперсии одного слова, хотя они, кажется, обобщают частоту слова тривиально. На всякий случай я включил эту информацию в ответ. Я изменил исходные обозначения, чтобы сделать их применимыми к модели слова (заменив f на N и v_i на n_i). Я добавил примечание, чтобы обозначить это, но если вы думаете, что это все еще вводит в заблуждение, я могу дать более длинное обоснование в ответе.

— Крис Новак

4

Первое, что я хотел бы сделать, это вычислить энтропию Шеннона. Вы можете использовать пакет R infotheo, функцию entropy(X, method="emp"). Если вы обернетесь natstobits(H)вокруг него, вы получите энтропию этого источника в битах.

— Алексей Бурнаков
источник

3

$\boldsymbol{p} \equiv (p_1, ... , p_n)$

\bar{ЧАС} (п) \equiv - \frac{Σ п_{я} пер п_{я}}{пер N},

$\bar{H}(\boldsymbol{p}) \equiv - \frac{\sum p_i \ln p_i}{\ln n}.$

$0 \leqslant \bar{H}(\boldsymbol{p}) \leqslant 1$

$k$ $p_i = \mathbb{I}(i=k)$ $\bar{H}(\boldsymbol{p}) = 0$
$p_i = 1/n$ $\bar{H}(\boldsymbol{p}) = 1$

— Бен - Восстановить Монику
источник