Vowpal Wabbit (VW), очевидно, поддерживает функцию маркировки последовательности через SEARN . Проблема в том, что я нигде не могу найти подробный список параметров с пояснениями и некоторыми примерами. Лучшее, что я смог найти - это запись в блоге Зинкова с очень коротким примером. Главная страница Вики почти не упоминает SEARN.
В проверенном исходном коде я нашел демонстрационную папку с некоторыми примерами данных NER. К сожалению, скрипт, запускающий все тесты, не показывает, как запускать эти данные. По крайней мере, он был достаточно информативен, чтобы увидеть, какой это ожидаемый формат: почти такой же, как стандартный формат данных VW, за исключением того, что записи разделены пустыми строками (это важно).
Насколько я понимаю, я должен выполнить следующую команду:
cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw
где
--searn 25
- общее количество меток NER (?)
--searn_task sequence
- задание последовательности тегов (?)
--searn_passes_per_policy 2
- не понятно что это делает
Другие параметры являются стандартными для VW и не требуют дополнительных пояснений. Возможно, есть еще параметры, специфичные для SEARN? Какова их важность и влияние? Как их настроить? Какие-нибудь эмпирические правила?
Любые указатели на примеры будут оценены.