Есть некоторые подходы, которые будут работать лучше для некоторых языков, чем для других. Например, soundex (и другое описание, которое мне нравится ) был разработан для английского произношения имен. С soundex Michaelстановится M240. Это имеет несколько шагов:
- Первая буква изолирована. (
Mи ichael)
- Все гласные удалены от остатка (
Mи chl)
- Согласные заменяются
- Левая накладка нулей.
Группировка согласных преобразования основаны на их фонетическое сходство - B, F, Pи Vвсе карты в 1.
И есть вариации на этот счет со временем . Это особенно полезно в генеалогии, где написание имени может меняться со временем, но произношение остается схожим.
Есть также подходы, такие как рейтинг соответствия, который был разработан авиакомпаниями для имен (а не американская генеалогия).
Кодирование подхода оценки рейтинга (MRA):
- Удалить все не ведущие гласные (
Michaelстановится Mchlи Anthonyстановится Anthny)
- Удалите вторую константу любых двойников
- Если строка длиннее 6 символов, уменьшите оставшуюся строку до 6 символов, взяв первые три и последние три.
Полная спецификация для этого может быть найдена на archive.org - обратите внимание, что это «не маленький» (печатная форма составляет 214 страниц).
В сравнении имеет порог соответствия на основе того, как долго текст.
Есть и другие фонетические алгоритмы .
Поэтому я хотел бы, чтобы вы взяли саундекс как есть, применили подход к рейтингу совпадений или измените саундекс на основе румынских и польских согласных .
Помните , что с Soundex, согласные сгруппированы (на польском языке, m, n, ɲявляются все носовые согласные должны быть сгруппированы, и вы, скорее всего , группа губные, зубные и альвеолярные взрывные - будь они глухими или озвучивает вместе - как должное, я не знаю польский, поэтому не знаю, говорю ли я что-то, что там не так).
Затем просто преобразуйте все имена в базе данных в две разные системы soundex и выясните, какие имена имеют наименьший набор коллизий на разных языках. Это дает вам разные имена. Так что Smithэто не отображается как Smyth.
Это, однако, только решает «имя, которое может столкнуться с другими именами и быть услышанным». Это не относится к другому способу «имя услышано правильно, записано неправильно», и для этого следует сосредоточить внимание на общих именах.
Например, это Michaelбыло очень распространенное имя в США с начала 1950-х до конца 1970-х годов. Оно было действительно популярным . Тем не менее, по какой-то причине, название Michealбыло довольно популярным в 1950-х годах (поднялось на 83-е место по популярности на своем пике). И я уверен, что люди по имени Michealпостоянно получали свое имя с ошибкой.
Таким образом, вы должны сосредоточиться на именах, где есть одно имя, которое доминирует над популярностью имени для данного произношения. Взглянув на другом потребитель данных для имен по годам, вы можете увидеть , что имена , начинающиеся с джемом ... для мальчика беспорядок с Jamaal, Jamal, Jamarи другими. Кстати, эти имена имеют немного разные soundexes для американских ( J540, J540и J560- lи rнаходятся в разных группах , хотя они тесно связаны в фонетике). Однако для кого-то, скажем, из Японии, в фонетическом регионе есть только один звук, где lиrпроизносится в американском английском. Это также может создать проблему с ведущими согласными, использующими soundex, о которых нужно знать (однажды я работал с японкой, которая называла себя Risa (с буквой «R»), а не с Лизой в качестве романизации своего японского имени).
Вы заметите, что мои примеры для Соединенных Штатов. Эти данные легко доступны. Очевидно, есть кое-что для Польши и венгерского языка , и только намеки на общность венгерского имени ... Я подозреваю, что поиск на другом языке, кроме английского, мог бы быть там полезным.
Таким образом, учитывая soundex для имени, несколько столкновений и фактическое написание находятся в наборе столкновений. Предпочтительно, это общее имя. Если посмотреть на этот венгерский список, Krisztiánто, скорее всего, вы получите орфографические ошибки, но Zoltánне так (22 место в списке самых распространенных имен детей в 2011 году в Венгрии!). Тем не менее, вы не можете пойти не так, как надо Michael.