Есть некоторые подходы, которые будут работать лучше для некоторых языков, чем для других. Например, soundex (и другое описание, которое мне нравится ) был разработан для английского произношения имен. С soundex Michael
становится M240. Это имеет несколько шагов:
- Первая буква изолирована. (
M
и ichael
)
- Все гласные удалены от остатка (
M
и chl
)
- Согласные заменяются
- Левая накладка нулей.
Группировка согласных преобразования основаны на их фонетическое сходство - B
, F
, P
и V
все карты в 1
.
И есть вариации на этот счет со временем . Это особенно полезно в генеалогии, где написание имени может меняться со временем, но произношение остается схожим.
Есть также подходы, такие как рейтинг соответствия, который был разработан авиакомпаниями для имен (а не американская генеалогия).
Кодирование подхода оценки рейтинга (MRA):
- Удалить все не ведущие гласные (
Michael
становится Mchl
и Anthony
становится Anthny
)
- Удалите вторую константу любых двойников
- Если строка длиннее 6 символов, уменьшите оставшуюся строку до 6 символов, взяв первые три и последние три.
Полная спецификация для этого может быть найдена на archive.org - обратите внимание, что это «не маленький» (печатная форма составляет 214 страниц).
В сравнении имеет порог соответствия на основе того, как долго текст.
Есть и другие фонетические алгоритмы .
Поэтому я хотел бы, чтобы вы взяли саундекс как есть, применили подход к рейтингу совпадений или измените саундекс на основе румынских и польских согласных .
Помните , что с Soundex, согласные сгруппированы (на польском языке, m
, n
, ɲ
являются все носовые согласные должны быть сгруппированы, и вы, скорее всего , группа губные, зубные и альвеолярные взрывные - будь они глухими или озвучивает вместе - как должное, я не знаю польский, поэтому не знаю, говорю ли я что-то, что там не так).
Затем просто преобразуйте все имена в базе данных в две разные системы soundex и выясните, какие имена имеют наименьший набор коллизий на разных языках. Это дает вам разные имена. Так что Smith
это не отображается как Smyth
.
Это, однако, только решает «имя, которое может столкнуться с другими именами и быть услышанным». Это не относится к другому способу «имя услышано правильно, записано неправильно», и для этого следует сосредоточить внимание на общих именах.
Например, это Michael
было очень распространенное имя в США с начала 1950-х до конца 1970-х годов. Оно было действительно популярным . Тем не менее, по какой-то причине, название Micheal
было довольно популярным в 1950-х годах (поднялось на 83-е место по популярности на своем пике). И я уверен, что люди по имени Micheal
постоянно получали свое имя с ошибкой.
Таким образом, вы должны сосредоточиться на именах, где есть одно имя, которое доминирует над популярностью имени для данного произношения. Взглянув на другом потребитель данных для имен по годам, вы можете увидеть , что имена , начинающиеся с джемом ... для мальчика беспорядок с Jamaal
, Jamal
, Jamar
и другими. Кстати, эти имена имеют немного разные soundexes для американских ( J540
, J540
и J560
- l
и r
находятся в разных группах , хотя они тесно связаны в фонетике). Однако для кого-то, скажем, из Японии, в фонетическом регионе есть только один звук, где l
иr
произносится в американском английском. Это также может создать проблему с ведущими согласными, использующими soundex, о которых нужно знать (однажды я работал с японкой, которая называла себя Risa (с буквой «R»), а не с Лизой в качестве романизации своего японского имени).
Вы заметите, что мои примеры для Соединенных Штатов. Эти данные легко доступны. Очевидно, есть кое-что для Польши и венгерского языка , и только намеки на общность венгерского имени ... Я подозреваю, что поиск на другом языке, кроме английского, мог бы быть там полезным.
Таким образом, учитывая soundex для имени, несколько столкновений и фактическое написание находятся в наборе столкновений. Предпочтительно, это общее имя. Если посмотреть на этот венгерский список, Krisztián
то, скорее всего, вы получите орфографические ошибки, но Zoltán
не так (22 место в списке самых распространенных имен детей в 2011 году в Венгрии!). Тем не менее, вы не можете пойти не так, как надо Michael
.