Файлы Excel могут быть преобразованы в CSV с помощью:
$ libreoffice --convert-to csv --headless --outdir dir file.xlsx
Кажется, все работает нормально. Кодировка, однако, настроена на что-то шаткое. Вместо UTF-8 mdash (-), который я получаю, если я делаю «сохранить как» вручную из LibreOffice Calc, он дает мне \ 227 ( ). Использование файла в CSV дает мне «Не-ISO расширенный текст ASCII, с очень длинными строками». Итак, два вопроса:
- Что здесь происходит?
- Как мне сказать libreoffice конвертировать в UTF-8?
Конкретный файл, который я пытаюсь конвертировать, находится здесь .