Замена шаблона соответствия случая с помощью sed

14

У меня есть исходный код, распределенный по нескольким файлам.

У него есть шаблон, abcdefкоторый мне нужно заменить pqrstuvxyz.
Шаблон может быть Abcdef(Случай предложения), тогда его нужно заменить на Pqrstuvxyz.
Шаблон может быть AbCdEf(случай переключения), тогда его необходимо заменить на PqRsTuVxYz.

Короче говоря, мне нужно сопоставить регистр исходного шаблона и применить соответствующий шаблон назначения.

Как я могу добиться этого с помощью sedили любого другого инструмента?

text-processing sed awk

— user1263746
источник

А если так ABcDeF?

— Стефан Шазелас

PQrStUvxyz - Я понял вашу точку зрения.

— user1263746

Так что если ABcDeF-> PQrStUvxyz, то, конечно, AbCdEf-> PqRsTuvxyzбудет логически последовательным. Если регистр нужно скопировать из одной строки в другую, что должно произойти, если вторая строка замены длиннее.

— Грэм,

Ну что ж, для краткости обрежем замену до «pqrstu».

— user1263746

9

Портативное решение с использованием sed:

sed '
:1
/[aA][bB][cC][dD][eE][fF]/!b
s//\
&\
pqrstu\
PQRSTU\
/;:2
s/\n[[:lower:]]\(.*\n\)\(.\)\(.*\n\).\(.*\n\)/\2\
\1\3\4/;s/\n[^[:lower:]]\(.*\n\).\(.*\n\)\(.\)\(.*\n\)/\3\
\1\2\4/;t2
s/\n.*\n//;b1'

С GNU sed это немного проще:

search=abcdef replace=pqrstuvwx
sed -r ":1;/$search/I!b;s//\n&&&\n$replace\n/;:2
    s/\n[[:lower:]](.*\n)(.)(.*\n)/\l\2\n\1\3/
    s/\n[^[:lower:]](.*\n)(.)(.*\n)/\u\2\n\1\3/;t2
    s/\n.*\n(.*)\n/\1/g;b1"

Используя &&&выше, мы повторно случай шаблон строки для остальной части замены, так ABcdefбудет изменен PQrstuVWxи AbCdEfв PqRsTuVwX. Измените его, чтобы &повлиять только на регистр первых 6 символов.

(обратите внимание , что он не может делать то , что вы хотите , или может работать в бесконечный цикл , если замена может быть предметом замещения (например , если подставляя fooдля foo, или bcdдля abcd)

— Стефан Шазелас
источник

8

Портативное решение с использованием awk:

awk -v find=abcdef -v rep=pqrstu '{
  lwr=tolower($0)
  offset=index(lwr, tolower(find))

  if( offset > 0 ) {
    printf "%s", substr($0, 0, offset)
    len=length(find)

    for( i=0; i<len; i++ ) {
      out=substr(rep, i+1, 1)

      if( substr($0, offset+i, 1) == substr(lwr, offset+i, 1) )
        printf "%s", tolower(out)
      else
        printf "%s", toupper(out)
    }

    printf "%s\n", substr($0, offset+len)
  }
}'

Пример ввода:

other abcdef other
other Abcdef other
other AbCdEf other

Пример вывода:

other pqrstu other
other Pqrstu other
other PqRsTu other

Обновить

Как указано в комментариях, выше будет заменять только первый экземпляр findв каждой строке. Чтобы заменить все экземпляры:

awk -v find=abcdef -v rep=pqrstu '{
  input=$0
  lwr=tolower(input)
  offset=index(lwr, tolower(find))

  if( offset > 0 ) {
    while( offset > 0 ) {

      printf "%s", substr(input, 0, offset)
      len=length(find)

      for( i=0; i<len; i++ ) {
        out=substr(rep, i+1, 1)

        if( substr(input, offset+i, 1) == substr(lwr, offset+i, 1) )
          printf "%s", tolower(out)
        else
          printf "%s", toupper(out)
      }

      input=substr(input, offset+len)
      lwr=substr(lwr, offset+len)
      offset=index(lwr, tolower(find))
    }

    print input
  }
}'

Пример ввода:

other abcdef other ABCdef other
other Abcdef other abcDEF
other AbCdEf other aBCdEf other

Пример вывода:

other pqrstu other PQRstu other
other Pqrstu other pqrSTU
other PqRsTu other pQRsTu other

— Graeme
источник

Обратите внимание, что обрабатывает только один экземпляр в строке.

— Стефан Шазелас

@StephaneChazelas, обновлен для обработки нескольких экземпляров.

— Грэм

6

Вы могли бы использовать perl. Прямо из часто задаваемых вопросов - цитата из perldoc perlfaq6:

Как заменить без учета регистра на LHS при сохранении регистра на RHS?

Вот прекрасное решение Perlish Ларри Рослера. Он использует свойства побитового xor в строках ASCII.

   $_= "this is a TEsT case";

   $old = 'test';
   $new = 'success';

   s{(\Q$old\E)}
   { uc $new | (uc $1 ^ $1) .
           (uc(substr $1, -1) ^ substr $1, -1) x
           (length($new) - length $1)
   }egi;

   print;

И здесь это как подпрограмма, смоделированная после вышеупомянутого:

       sub preserve_case($$) {
               my ($old, $new) = @_;
               my $mask = uc $old ^ $old;

               uc $new | $mask .
                       substr($mask, -1) x (length($new) - length($old))
   }

       $string = "this is a TEsT case";
       $string =~ s/(test)/preserve_case($1, "success")/egi;
       print "$string\n";

Это печатает:

           this is a SUcCESS case

В качестве альтернативы, чтобы сохранить регистр заменяющего слова, если оно длиннее исходного, вы можете использовать этот код Джеффа Пиньяна:

   sub preserve_case {
           my ($from, $to) = @_;
           my ($lf, $lt) = map length, @_;

           if ($lt < $lf) { $from = substr $from, 0, $lt }
           else { $from .= substr $to, $lf }

           return uc $to | ($from ^ uc $from);
           }

Это меняет предложение на «это дело УСПЕХА».

Просто чтобы показать, что C-программисты могут писать на C на любом языке программирования, если вы предпочитаете более C-подобное решение, следующий скрипт заставляет замену иметь тот же случай, буква за буквой, что и оригинал. (Также бывает, что он работает примерно на 240% медленнее, чем работает решение Perlish.) Если подстановка содержит больше символов, чем подставляемая строка, регистр последнего символа используется для остальной части подстановки.

   # Original by Nathan Torkington, massaged by Jeffrey Friedl
   #
   sub preserve_case($$)
   {
           my ($old, $new) = @_;
           my ($state) = 0; # 0 = no change; 1 = lc; 2 = uc
           my ($i, $oldlen, $newlen, $c) = (0, length($old), length($new));
           my ($len) = $oldlen < $newlen ? $oldlen : $newlen;

           for ($i = 0; $i < $len; $i++) {
                   if ($c = substr($old, $i, 1), $c =~ /[\W\d_]/) {
                           $state = 0;
                   } elsif (lc $c eq $c) {
                           substr($new, $i, 1) = lc(substr($new, $i, 1));
                           $state = 1;
                   } else {
                           substr($new, $i, 1) = uc(substr($new, $i, 1));
                           $state = 2;
                   }
           }
           # finish up with any remaining new (for when new is longer than old)
           if ($newlen > $oldlen) {
                   if ($state == 1) {
                           substr($new, $oldlen) = lc(substr($new, $oldlen));
                   } elsif ($state == 2) {
                           substr($new, $oldlen) = uc(substr($new, $oldlen));
                   }
           }
           return $new;
   }

— devnull
источник

Обратите внимание, что он ограничен буквами ASCII.

— Стефан Шазелас

5

Если вы урежете заменить на pqrstu , попробуйте это:

Входные данные:

abcdef
Abcdef
AbCdEf
ABcDeF

Ouput:

$ perl -lpe 's/$_/$_^lc($_)^"pqrstu"/ei' file
pqrstu
Pqrstu
PqRsTu
PQrStU

Если вы хотите заменить на prstuvxyz, может быть это:

$ perl -lne '@c=unpack("(A4)*",$_);
    $_ =~ s/$_/$_^lc($_)^"pqrstu"/ei;
    $c[0] =~ s/$c[0]/$c[0]^lc($c[0])^"vxyz"/ei;
    print $_,$c[0]' file
pqrstuvxyz
PqrstuVxyz
PqRsTuVxYz
PQrStUVXyZ

Я не могу найти никаких правил для карты ABcDeF-> PQrStUvxyz.

— cuonglm
источник

Обратите внимание, что он ограничен буквами ASCII.

— Стефан Шазелас

3

Нечто подобное сделало бы то, что вы описали.

sed -i.bak -e "s/abcdef/pqrstuvxyz/g" \
 -e "s/AbCdEf/PqRsTuVxYz/g" \
 -e "s/Abcdef/Pqrstuvxyz/g" files/src

— UNX
источник