Я пытаюсь выяснить, как рассчитать индекс Рэнда кластерного алгоритма, но я застрял в точке, как рассчитать истинные и ложные отрицания.
Сейчас я использую пример из книги «Введение в поиск информации» (Manning, Raghavan & Schütze, 2009). На странице 359 они говорят о том, как рассчитать индекс Рэнда. Для этого примера они используют три кластера, и кластеры содержат следующие объекты.
- aaaaab
- abbbbc
- aaccc
Я заменяю объект (оригинальные знаки на буквы, но идея и количество остаются неизменными). Я приведу точные слова из книги, чтобы понять, о чем они говорят:
Сначала мы вычисляем TP + FP. Три кластера содержат 6, 6 и 5 баллов соответственно, поэтому общее количество «позитивов» или пар документов, которые находятся в одном кластере:
TP + FP = + + = 15 + 15+ 10 = 40
Из них пары a в кластере 1, пары b в кластере 2, пары c в кластере 3 и пара a в кластере 3 являются истинными положительными значениями:
TP = + + + = 10 + 6 + 3 + 1 = 20
Таким образом, FP = 40 - 20 = 20.
До сих пор расчеты понятны, и если я беру другие примеры, я получаю те же результаты, но когда я хочу вычислить ложноотрицательный и истинно отрицательный Manning et al. заявить следующее:
FN и TN рассчитываются аналогично, что приводит к следующей таблице непредвиденных расходов:
Таблица непредвиденных расходов выглядит следующим образом:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Предложение: «FN и TN рассчитываются аналогично» не совсем понятно для меня, и я не понимаю, какие числа мне нужны для вычисления TN и FN. Я могу рассчитать правую часть таблицы, выполнив следующие действия:
TP + FP + FN + TN = = = 136
Источник: http://en.wikipedia.org/wiki/Rand_index
Таким образом, FN + TN = 136 - TP + FP = 136 - 40 = 96, но это на самом деле не помогает мне понять, как вычислять переменные по отдельности. Особенно, когда авторы говорят: «FN и TN рассчитываются одинаково». Я не вижу как. Также, когда я смотрю на другие примеры, они вычисляют каждую ячейку таблицы сопряженности, просматривая каждую пару.
Например: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Мой первый вопрос, основанный на примере Manning et al (2009), можно ли рассчитать TN и FN, если вы знаете только TP & NP? И если да, то как выглядит аналогичный расчет на основе приведенного примера?