Выстроить CSV


12

Обзор:

Ваша задача состоит в том, чтобы взять CSV-вход в key=valueформате и выстроить его в более организованном порядке (см. Ниже).

Входные данные:

Всегда через стандартный ввод . Записи всегда будут в следующей форме key=value:

foo=bar,baz=quux
abc=123,foo=fubar
baz=qwe,abc=rty,zxc=uiop,foo=asdf
  • Предварительно не будет списка возможных ключей, вы должны найти их во входном тексте.
  • Конец ввода будет сигнализироваться EOFлюбой реализацией, EOFподходящей для вашей ОС.

Выход:

Первая строка вашего вывода будет список всех клавиш в алфавитном порядке (даже если ключи все цифры). После этого распечатайте каждую запись в том же формате CSV с соответствующим цифровым заголовком без указанных ключей. Таким образом, для приведенного выше примера правильным выводом будет:

abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

ВОПРОСЫ-ОТВЕТЫ:

  • Должен ли я беспокоиться о неправильно отформатированном вводе?
    • Нет. Ваша программа может делать все, что захочет (генерировать исключение, игнорировать и т. Д.), Если входные данные отформатированы неправильно, например, строка foo,bar,baz
  • Как мне обработать экранирование специальных символов?
    • Вы можете предположить, что не будет никаких дополнительных данных ,или =данных, которые не являются частью key=valueформата. "не имеет никакого особого значения в этом конкурсе (даже при том, что это имеет в традиционном CSV). также не является особенным в любом случае.
    • Строки должны соответствовать следующему регулярному выражению: ^([^=,]+=[^=,]+)(,[^=,]+=[^=,]+)*$
      • Следовательно, ключи и значения будут совпадать [^=,]+
  • Как насчет CRLFпротив LF?
    • Вы можете выбрать любой разделитель, подходящий для вашей платформы. Большинство языков обрабатывают это без специального кода разграничения.
  • Нужно ли выводить запятые, если последние несколько столбцов не существуют?
    • Да. Смотрите пример.
  • Разрешены ли анализаторы CSV или другие подобные внешние инструменты?
    • Нет. Вы должны проанализировать данные самостоятельно.

15
FAQ, когда никто еще не задавал вопросы. :-)
Джастин

5
@Quincunx Если я задам себе вопрос, который имеет значение;)
durron597

18
У меня такое ощущение, что так работают все часто задаваемые вопросы.
Мартин Эндер,

Могу ли я добавить запятую в моем списке ключей и значений? Это сделало бы мой код намного короче ...
PlasmaPower

@PlasmaPower Я не понимаю вопроса; однако ваша программа должна точно соответствовать выходным данным для данного входного примера
durron597

Ответы:


3

GolfScript, 64 символа

n%{','/{'='/}%}%:I{{0=}/}%.&$:K','*n{`{{(2$=*}%''*\;}+K%','*n}I/

Код представляет собой простую реализацию в GolfScript, вы можете проверить пример в Интернете .

Аннотированный код:

# Split the input into lines, each line into tuples [key, value]
# and assign the result to variable I
n%{','/{'='/}%}%:I

# From each tuple take the 0'th element (i.e the key)
{{0=}/}%

# Take the unique items (.&), sort ($) and assign the result to variable K
.&$:K

# Output: join values with , and append a newline
','*n

# {...}I/: Loop over all lines of the input 
{

  # `{...}+K%: Loop over all keys and initially push the current 
  # line for each of the keys
  `{
    # stack here is [current key, current line]
    # {}%: map to all the items of the current line
    {
      # extract the key from the current item and compare
      (2$=
      # if equal keep [value], otherwise multiply with 0, i.e. discard
      *
    }%
    # join the results (may be one or zero) and drop the key
    ''*\; 
  }+K%
  # Output: join values of current line with , and append a newline
  ','*n
}I/

2

Perl 6: 119 символов, 120 байт

my@l=lines.map:{/[(\w+)\=(\w+)]+%\,/;push $!,~«@0;$%(@0 Z=>@1)}
say .join(",") for$!.=sort.=uniq,($(.{@$!}X//"") for@l)

Де-golfed:

my@l=lines.map: {
    # Parse the key=value pairs,
    # put all the keys in $/[0] (or $0)
    # put all the values in $/[1] (or $1)
    / [ (\w+) \= (\w+) ]+ % \, /;

    # Push all the keys into $!
    # (@0 just means @$0 or $/[0].list)
    push $!, ~«@0;

    # Return a hash of keys zipped into pairs with the values
    $%( @0 Z=> @1 )
}

$!.=sort.=uniq;
# …i.e., $! = $!.sort.uniq;

# Print the CSV for the keys ($!),
# followed by the CSVs for the hashes we made for each line,
# as accessed by our sorted key list. (… .{@$!} …)
# If the value doesn't exist, just use "" instead. (… X// "" …)
say .join(",") for $!, ($( .{@$!} X// "" ) for @l)

2

Perl, 129/121

129 байт, без командной строки:

for(<>){push@x,{%g=map{split/=/}split/[,
]/};@h{keys%g}=()}@k=sort keys%h;$"=",";sub P{print"@_
"}P@k;for$x(@x){P map{$$x{$_}}@k}

Как указывает @Dennis ниже, вы можете получить это значение до 120 + 1 = 121, используя -n:

push@x,{%g=map{split/=/}split/[,
]/};@h{keys%g}=()}@k=sort keys%h;$"=",";sub P{print"@_
"}P@k;for$x(@x){P map{$$x{$_}}@k

По сути, для каждой строки мы разделяем запятые, чтобы получить список пар. Для каждой пары мы делим знак равенства, чтобы получить ключ и значение. Мы устанавливаем пару ключ / значение в% h и локальный хэш-адрес. Первый используется для определения списка ключей. Последний используется для запоминания значений для этой строки.


1
Вы можете сохранить несколько символов следующим образом: 1. Используя -nпереключатель вместо for(<>){...}. 2. Расщепление [, ]вместо использования chomp. 3. Опуская точку с запятой после фигурных скобок.
Деннис

Спасибо @Dennis. Я реализовал последние 2 из ваших предложений. Я все еще могу добавить -n к миксу, но я чувствую себя пуристом, который слишком ленив, чтобы печатать на своем телефонном банкомате :-) Кроме того, для этого потребуется блок END, но я полагаю, что это все равно будет чистый выигрыш ,
Скибрянски

Да, добавление -n сохраняет только 3 символа (две точки) с блоком END. Я предпочитаю «более чистое» решение. По крайней мере, пока один из других ответов не станет ближе =)
Скибрянски

Perl буквально обволакивает while (<>) { ... }весь скрипт, поэтому нет необходимости в блоке END. Просто удалите for(<>){в начале и }в конце сценария.
Деннис

3
Тем не менее, он будет работать до тех пор, пока вы удалите }конец скрипта, а не тот, который соответствует forциклу. Кроме того, вы можете сохранить еще один символ, используя вместо него новую строку \n.
Деннис

1

JavaScript ( ES5 ) 191 183 179 168 байт

Предполагая, что код запускается в командной строке spidermonkey:

for(b=[a={}];l=readline(i=0);b.push(c))for(c={},d=l.split(/,|=/);e=d[i++];)c[a[e]=e]=d[i++];for(;c=b[i++];)print(Object.keys(a).sort().map(function(x){return c[x]})+[])

Результат:

> js test.js < input.txt
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

Эта прокладка может быть использована в браузере для симуляции пауков readlineи print:

var I = 0, LINES = '\
foo=bar,baz=quux\n\
abc=123,foo=fubar\n\
baz=qwe,abc=rty,zxc=uiop,foo=asdf'.split('\n'),
readline = function(){
    return LINES[I++];
}, print = function(){
    return console.log.apply(console, arguments);
};

Ungolfed:

a = {};                        // this object holds all keys found
b = [a];                       // array key:value pairs of each line, initialized with our key holder object in position 0
for(;l = readline();){         // store each line in l, loop until blank/undefined line
    c = {};                    // create a new object for this line's key:value pairs
    d = l.split(/,|=/);        // split line by commas and equals
    for(i = 0; e = d[i++];){   // loop through each key
        a[e] = e;              // set the key=key for key holder object
        c[e] = d[i++];         // set key=value for the line object
    }
    b.push(c);                 // push line object onto array
}
for(i = 0; c = b[i++];){       // loop through all line objects until undefined
    print(                     // print line
        Object.keys(a).sort(). // get sorted list of keys
        map(function(x){
            return c[x]        // map values from line object
        })
        + []                   // cast array to string
    );
}

Вопрос не говорит о том, что вы должны использовать «stdout» - вы можете использовать alertвместо этого console.logи сохранить несколько байтов таким образом.
Гауранг Тандон

@GaurangTandon Тогда мне нужно объединить все контурные линии. Я мог бы обновить свой ответ, чтобы использовать командную строку spidermonkey и вместо этого использовать readlineи printдля фактического stdin / out
nderscore

1

Bash + coreutils, 188 138 байт

p=paste\ -sd,
f=`cat`
h=`tr , '\n'<<<$f|cut -d= -f1|sort -u`
$p<<<"$h"
for l in $f;{
join -o2.2 -a1 - <(tr =, ' \n'<<<$l|sort)<<<"$h"|$p
}

Выход:

$ ./lineupcsv.sh < input.csv 
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop
$ 

0

Хаскелл, 357 334

import Data.List
o=1<2
s u|u==""=""|o=tail u
t=takeWhile
d=dropWhile
c=(/=',')
e=(/='=')
p x|x/=""=Just((t e x,t c.s.d e$x),s.d c$x)|o=Nothing
g=m(unfoldr p).lines
k=nub.sort.(m fst=<<).g
[]#_=[]
(t@(x,u):z)#n@(a,b)|x==a=n:z|o=t:z#n
i=intercalate
main=interact$ \d->i"\n"$(i","$k d):m(i",".m snd.foldl(#)(m(flip(,)"").k$d))(g d)
m=map

gвыполняет синтаксический анализ - он разбивает входные данные на строки и отображает каждую строку в список (key,value)пар. k, объединяя все ключи в список и удаляя дубликаты, создает список со всеми уникальными ключами, которые я позже смогу использовать для сортировки. Я делаю это, создавая «Set» внутри main( m(flip(,)"").k$d == [("abc",""),("baz",""),("foo",""),("zxc","")]) для каждой строки, а затем беря каждую (key,value)пару из строки и помещая ее в свое место в списке ( foldl). Строка 1 из примера приводит к выводу [("abc",""),("baz","quux"),("foo","bar"),("zxc","")], который я объединяю в одну строку ( ",quux,bar,"), объединяю с другими строками и печатаю.

>>> csv.exe < input.txt
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

0

Python 2,7 - 242 байта

BLEH

import os
c=[r.split(',')for r in os.read(0,99).split('\n')]
k=sorted(list(set(sum([[s.split('=')[0]for s in r]for r in c],[]))))
print','.join(k)
for l in c:
 t=[''for i in k]
 for s in l:
    o,v=s.split('=')
    t[k.index(o)]=v
 print','.join(t)

Обратите внимание, что вторым слоем отступа является символ табуляции, а не четыре пробела, как в SE.

Ungolfed:

#!/bin/python2

import os

# I do input as a list comprehension in the original but this is equivalent
c = []

# For each line in the input
for r in os.read(0,99).split('\n'):
    # Add a list of key=value pairs in that row to c
    c.append(r.split(','))

# Another thing done as a list comprehension, but I'll space it out
k = []

# For each list of key=value pair s in c
for r in c:
    # For each actual key=value pair in that list
    for s in r:
        # Get the key
        k.append(s.split('=')[0])

# Discard dupes by converting to set and back, then sort
k = sorted(list(set(k)))

# Seperate these keys by commas, then print
print ','.join(k)

# For each line in c
for l in c:
    # t has one empty string for each key in the input
    t = ['' for i in k]
    # For each key=value pair in the line
    for s in l:
        # o = key, v = value
        o, v = s.split('=')
        # Find the position that the key is in the list of keys, then put the
        # value in t at that position
        t[k.index(o)] = v

    # Now each value is in the right position and the keys with no values on this
    # line have an empty string. Join everything with commas and print
    print ','.join(t)

0

Python 3: 200 195 192 189 187

import sys
r=[dict(p.split('=')for p in l[:-1].split(','))for l in sys.stdin]
x=set()
for d in r:x|=d.keys()
k=sorted(x)
for l in[k]+[[r.get(k,'')for k in k]for r in r]:print(*l,sep=',')

0

k4 (40? 51? 70? 46?)

основное выражение

","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:

он принимает и возвращает список строк

чтобы соответствовать спецификации, мы могли бы сделать интерактивно

-1","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:."\\cat";

который принимает входные данные от стандартного ввода и выводит вывод на стандартный вывод

для автономного приложения, принимающего входные данные из канала, мы можем сделать это:

$ cat i.k
.z.pi:{t,:`\:x}
.z.exit:{-1","0:{(x@<x:?,/?!:'x)#/:x}(!).'"S=,"0:/:t}
$ cat i.txt|q i.k
abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop
$ 

Несмотря на то, что вы готовы рассматривать мою существующую оболочку k-as-фильтра awq.k как приемлемый инструмент для такого рода головоломок, мы можем сделать это:

$ cat i.txt|awq.k '","0:{(x@<x:?,/?!:'\''x)#/:x}(!).'\''"S=,"0:/:'

или 46 символов или 40, в зависимости от того, как вы посчитали спор о кавычках


Какая среда необходима для этого? qкоманда? Является ли awq.kопубликована где - нибудь?
Цифровая травма

32-битная версия q теперь доступна для бесплатного скачивания с kx.com/software-download.php . (раньше у них была только ограниченная по времени пробная версия). хм, похоже, что awq фактически нигде не опубликован; Я должен что-то сделать с этим.
Аарон Дэвис

0

C # - 369

(в LINQPAD)

void C(string a){var k=a.Split(new[]{',','\n'}).Select(s=>s.Split('=')[0]).OrderBy(o=>o).Distinct();var t=string.Join(",", k)+"\n";foreach(var x in a.Split('\n')){for(int i=0;i<k.Count();i++){foreach(var y in x.Split(',').OrderBy(o=>o.Split('=')[0]))if(k.ElementAt(i)==y.Split('=')[0])t+=y.Split('=')[1];t+=",";}t=t.Remove(t.LastIndexOf(','),1)+"\n";}Console.Write(t);}

Ungolfed

void C(string a)
{
    var k=a.Split(new[]{',','\n'}).Select(s=>s.Split('=')[0]).OrderBy(o=>o).Distinct();
    var t=string.Join(",", k)+"\n";
    foreach(var x in a.Split('\n'))
    {
        for(int i=0;i<k.Count();i++)
        {
            foreach(var y in x.Split(',').OrderBy(o=>o.Split('=')[0]))
                if(k.ElementAt(i)==y.Split('=')[0])
                    t+=y.Split('=')[1];
            t+=",";
        }
        t=t.Remove(t.LastIndexOf(','),1)+"\n";
    }
    Console.Write(t);
}

Проверка строки ввода

C("foo=bar,baz=quux\nabc=123,foo=fubar\nbaz=qwe,abc=rty,zxc=uiop,foo=asdf");

Выход

abc,baz,foo,zxc
,quux,bar,
123,,fubar,
rty,qwe,asdf,uiop

Просто любопытно, что это C #, поэтому он должен работать в Windows, но так ли это? (См. Мой вопрос CRLFпротив LFFAQ). К сожалению, у меня нет копии Visual Studio для тестирования.
durron597

Первоначально я должен был добавить примечание, но я теперь. Да, это работает. Я создал и протестировал его в linqpad. Я не тестировал его в консольном приложении, но нет никаких причин, почему он не будет работать. Но консольное приложение, очевидно, добавит в код больше байтов.
jzm
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.