В предыдущем вопросе я спрашивал об инструментах для редактирования файлов CSV .
Гэвин ссылается на комментарий к R Help Дункана Мердока, в котором говорится, что формат обмена данными является более надежным способом хранения данных, чем CSV.
Для некоторых приложений необходима выделенная система управления базами данных. Однако для небольших проектов анализа данных что-то более легкое кажется более подходящим.
Рассмотрим следующие критерии оценки формата файла:
- надежный : введенные данные должны оставаться верными тому, что было введено; данные должны последовательно открываться в разных программах;
- просто : было бы неплохо, если бы формат файла был прост для понимания и в идеале читался с помощью простого текстового редактора; должно быть легко написать простую программу для чтения и записи в формате.
- открыть : формат должен быть открыт
- совместимость : формат файла должен поддерживаться многими системами
Я считаю, что форматы значений, разделенные запятыми и запятыми, не соответствуют критерию надежности. Хотя я полагаю, что я могу винить в импорте и экспорте программы, а не в формате файла. Мне часто приходится вносить небольшие изменения в параметры
read.table
, чтобы какой-то странный символ не нарушал загрузку фрейма данных.
Вопросов
- Какой формат файла лучше всего отвечает этим потребностям?
- Является ли формат обмена данными лучшей альтернативой? или у него есть свои проблемы?
- Есть какой-то другой формат, который предпочтительнее?
- Я несправедливо оцениваю TSV и CSV? Существует ли простой набор советов по работе с такими файлами, которые делают формат файла более надежным?
write.DIF()
так что это немного улица с односторонним движением, я боюсь.