У меня есть ссылки в виде текстового файла с длинным списком записей, и у каждого есть два (или более) поля.
Первый столбец - это URL ссылки; второй столбец - это заголовок, который может немного отличаться в зависимости от того, как была сделана запись. То же самое для третьего поля, которое может присутствовать или не присутствовать.
Я хочу идентифицировать, но не удалять записи, в которых первое поле (URL ссылки) идентично. Я знаю, sort -k1,1 -u
но это автоматически (не в интерактивном режиме) удалит все, кроме первого попадания. Есть ли способ просто дать мне знать, чтобы я мог выбрать, какой сохранить?
В приведенной ниже выдержке из трех строк, которые имеют одинаковое первое поле ( http://unix.stackexchange.com/questions/49569/
), я хотел бы сохранить строку 2, потому что она имеет дополнительные теги (sort, CLI) и удалить строки # 1 и # 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Есть ли программа, помогающая идентифицировать такие «дубликаты»? Затем я могу вручную очистить, удалив лично строки 1 и 3?