Вопросы с тегом «record-linkage»

1
Современное состояние дедупликации
Каковы современные методы дедупликации записей? Дедупликацию также иногда называют: связывание записи, разрешение объекта, разрешение идентификатора, объединение / очистка. Я знаю, например, о CBLOCK [1]. Я был бы признателен, если бы ответы также включали ссылки на существующее программное обеспечение, реализующее методы. Я знаю, например, что Mahout реализует кластеризацию навеса . Также …

2
Использование алгоритма EM для связывания записей
Мне интересно связать записи между двумя наборами данных по имени, фамилии и году рождения. Можно ли это сделать с помощью алгоритма EM, и если да, то как? В качестве примера рассмотрим следующую запись в 1-м: Карл Маккарти, 1967. Я буду искать по всем записям во втором наборе данных и назначать …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.