Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия».
Краткий план был
- Возьмите книги с упоминанием термина «демократия» как простой текст
- В каждой книге заменить
democracy
наdemocracy_%AuthorName%
- Тренируй
word2vec
модель по этим книгам - Вычислить расстояние между
democracy_AuthorA
,democracy_AuthorB
и другой перемаркированными упоминаниями о «демократии»
Так что каждая авторская «демократия» получает свой собственный вектор, который используется для сравнения.
Но, похоже, word2vec
для обучения надежных векторов требуется гораздо больше, чем несколько книг (каждое переименованное слово встречается только в подмножестве книг). Официальная страница рекомендует наборы данных , включая миллиарды слов.
Я просто хотел спросить, насколько большим должно быть подмножество книг одного автора, чтобы сделать такой вывод с помощью word2vec
альтернативных инструментов, если таковые имеются?
window
Наборы параметров , сколько слов в контексте используются для обучения модели для слова ш