Gazetteer или любая другая опция преднамеренно фиксированного размера кажется очень популярным подходом в академических работах, когда у вас есть проблема конечного размера, например, NER в фиксированных корпусах, или POS-тегирование или что-то еще. Я не считаю это мошенничеством, если только вы не будете использовать функцию соответствия Gazetteer.
Однако, когда вы обучаете какую-либо модель НЛП, которая опирается на словарь во время обучения, вы можете получить реальную производительность намного ниже, чем показала бы ваша первоначальная проверка, если вы не можете включить все объекты, представляющие интерес, в справочник (и почему тогда вы нужна ли эта модель?) потому что ваша обученная модель будет полагаться на эту функцию в некоторый момент, и в случае, когда другие функции будут слишком слабыми или не описательными, новые объекты, представляющие интерес, не будут распознаваться.
Если вы используете Gazetteer в своих моделях, вы должны убедиться, что эта функция имеет функцию счетчика, позволяющую сбалансировать модель, чтобы простое совпадение по словарю не было единственной функцией положительного класса (и что более важно, gazetteer должен сопоставлять не только положительные примеры, но и отрицательные).
Например, предположим, что у вас есть полный набор бесконечных вариаций всех имен людей, что делает NER обычного человека нерелевантным, но теперь вы пытаетесь решить, способен ли объект, упомянутый в тексте, петь. Вы будете полагаться на особенности включения в свой справочник Person, которые дадут вам много ложных срабатываний; затем вы добавите ориентированную на глагол функцию « Субъект глагола петь », и это, вероятно, даст вам ложные срабатывания от всех видов объектов, таких как птицы, животик, когда вы голодны, и пьяный парень, который думаетон может петь (но, честно говоря, он не может), - но эта функция, ориентированная на глагол, будет уравновешиваться с вашим личным справочником, чтобы назначать позитивный класс «Певец» людям, а не животным или любым другим объектам. Впрочем, это не решает дела пьяного исполнителя.