Использование Vowpal Wabbit для NER


9

Vowpal Wabbit (VW), очевидно, поддерживает функцию маркировки последовательности через SEARN . Проблема в том, что я нигде не могу найти подробный список параметров с пояснениями и некоторыми примерами. Лучшее, что я смог найти - это запись в блоге Зинкова с очень коротким примером. Главная страница Вики почти не упоминает SEARN.

В проверенном исходном коде я нашел демонстрационную папку с некоторыми примерами данных NER. К сожалению, скрипт, запускающий все тесты, не показывает, как запускать эти данные. По крайней мере, он был достаточно информативен, чтобы увидеть, какой это ожидаемый формат: почти такой же, как стандартный формат данных VW, за исключением того, что записи разделены пустыми строками (это важно).

Насколько я понимаю, я должен выполнить следующую команду:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

где

--searn 25 - общее количество меток NER (?)

--searn_task sequence - задание последовательности тегов (?)

--searn_passes_per_policy 2 - не понятно что это делает

Другие параметры являются стандартными для VW и не требуют дополнительных пояснений. Возможно, есть еще параметры, специфичные для SEARN? Какова их важность и влияние? Как их настроить? Какие-нибудь эмпирические правила?

Любые указатели на примеры будут оценены.

Ответы:


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.