[root@server]# awk '!seen[$0]++' out.txt > cleaned
awk: (FILENAME=out.txt FNR=8547098) fatal error: internal error
Aborted
[root@server]#
«Сервер» имеет: 8 ГБ ОЗУ + 16 ГБ SWAP, x> 300 ГБ свободного места, amd64, настольный ЦП. Научный Linux 6.6. На нем больше ничего не работает, чтобы сделать LOAD. Awk прерывается через несколько секунд .. out.txt составляет ~ 1,6 ГБайт. GNU Awk 3.1.7.
Вопрос : Как я могу удалить дубликаты строк, сохраняя порядок строк? Случай также важен, например: «А» и «а» - это две разные строки, должны их сохранить. Но «а» и «а» дублируют, нужен только первый.
Ответ может быть что угодно .. если awk не подходит для этого .. тогда perl / sed .. в чем может быть проблема?
[root@server]# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 61945
max locked memory (kbytes, -l) 99999999
max memory size (kbytes, -m) unlimited
open files (-n) 999999
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 99999999
cpu time (seconds, -t) unlimited
max user processes (-u) 61945
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
[root@server]#
Обновление: я пробовал это на машине RHEL, она не прерывается, но у меня не было времени ждать, пока она закончится .. почему SL linux отличается от RHEL?
Обновление: я пытаюсь на Ubuntu 14 виртуальных гостей ... пока это работает! Это не проблема ulimit: mawk 1.3.3
root@asdf-VirtualBox:~# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 51331
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 51331
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
root@asdf-VirtualBox:~#
awk
версии в двух машинах?
out.txt
? Работает ли та же команда, если вы попробуете ее на меньшем файле? Сколько пользователей на машине? Было ли достаточно памяти для процесса? Что-нибудь особенное в строке 8547098 входного файла?