Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия».
Краткий план был
- Возьмите книги с упоминанием термина «демократия» как простой текст
- В каждой книге заменить
democracyнаdemocracy_%AuthorName% - Тренируй
word2vecмодель по этим книгам - Вычислить расстояние между
democracy_AuthorA,democracy_AuthorBи другой перемаркированными упоминаниями о «демократии»
Так что каждая авторская «демократия» получает свой собственный вектор, который используется для сравнения.
Но, похоже, word2vecдля обучения надежных векторов требуется гораздо больше, чем несколько книг (каждое переименованное слово встречается только в подмножестве книг). Официальная страница рекомендует наборы данных , включая миллиарды слов.
Я просто хотел спросить, насколько большим должно быть подмножество книг одного автора, чтобы сделать такой вывод с помощью word2vecальтернативных инструментов, если таковые имеются?
windowНаборы параметров , сколько слов в контексте используются для обучения модели для слова ш