У меня есть список слов, принадлежащих к разным категориям. Каждая категория имеет свой собственный шаблон (например, одна имеет фиксированную длину со специальными символами, другая существует из символов, которые встречаются только в этой категории «слова», ...).
Например:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Я ищу технику машинного обучения, чтобы изучать эти схемы самостоятельно, основываясь на данных обучения. Я уже пытался определить некоторые переменные предиктора (например, длину слова, количество специальных символов, ...) самостоятельно, а затем использовал нейронные сети для изучения и прогнозирования категории. Но это совсем не то, что я хочу. Я хочу, чтобы техника выучила шаблоны для каждой категории самостоятельно - даже для изучения шаблонов, о которых я никогда не думал.
Поэтому я привожу данные обучения алгоритму (состоящие из примеров словосочетаний) и хочу, чтобы он выучил шаблоны для каждой категории, чтобы потом прогнозировать категорию из похожих или равных слов.
Есть ли современный способ сделать это?
Спасибо за вашу помощь