Как указал Штеффен, пример матрицы кодирует количество раз, когда слово появляется в тексте. Положение кодирования в матрице задается словом (позиция столбца в матрице) и текстом (положение строки в матрице).
Теперь трюк хеширования работает так же, хотя вам не нужно изначально определять словарь, содержащий позицию столбца для каждого слова.
Фактически это функция хеширования, которая даст вам диапазон возможных позиций столбцов (функция хеширования даст вам минимальное и максимальное возможное значение) и точную позицию слова, которое вы хотите закодировать в матрицу. Например, давайте представим, что слово «лайки» хэшируется нашей функцией хеширования в число 5674, тогда столбец 5674 будет содержать кодировки, относящиеся к слову «лайки».
Таким образом, вам не нужно создавать словарь, прежде чем анализировать текст. Если вы будете использовать разреженную матрицу в качестве текстовой матрицы, вам даже не нужно будет точно определять, какой будет размер матрицы. Просто сканируя текст на лету, вы будете преобразовывать слова в позиции столбцов с помощью функции хеширования, и ваша текстовая матрица будет заполняться данными (частотами, т. Е.) В соответствии с тем, какой документ вы анализируете постепенно (положение строки).