У меня много адресных строк:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Я хочу разобрать их на составляющие:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Но, конечно, данные грязные: они поступают из многих стран на многих языках, написаны по-разному, содержат орфографические ошибки, пропуски, лишний мусор и т. Д.
Прямо сейчас наш подход состоит в том, чтобы использовать правила в сочетании с нечетким соответствием газетера, но мы хотели бы изучить методы машинного обучения. Мы пометили данные обучения для контролируемого обучения. Вопрос в том, что это за проблема машинного обучения? Это не похоже на кластеризацию, классификацию или регрессию ...
Самое близкое, что я могу придумать, это классифицировать каждый токен, но тогда вы действительно хотите классифицировать их все одновременно, удовлетворяя ограничениям типа «должно быть не более одной страны»; и действительно, есть много способов токенизации строки, и вы хотите попробовать каждый из них и выбрать лучший .... Я знаю, что существует вещь, называемая статистическим анализом, но ничего не знаю об этом.
Итак: какие методы машинного обучения я мог бы изучить для анализа адресов?