Когда я работаю над проектами по анализу данных, я часто храню данные в файлах данных с разделителями-запятыми (CSV, TSV). При этом данные часто принадлежат к выделенной системе управления базами данных. Для многих моих приложений это было бы слишком.
Я могу редактировать файлы CSV и TSV в Excel (или, предположительно, в другой программе электронных таблиц). Это имеет преимущества:
- электронные таблицы облегчают ввод данных
Есть также несколько проблем:
- Работа с файлами CSV и TSV приводит к появлению большого количества предупреждающих сообщений о потере различных функций и о том, как будет сохранен только активный лист, и так далее. Таким образом, это раздражает, если вы просто хотите открыть файл и внести небольшие изменения.
- Это делает много "якобы умных" преобразований. Например, если вы введете 12/3, будет думать, что вы хотите ввести дату. ОБНОВЛЕНИЕ: я должен был упомянуть, что пример даты - только один из многих примеров; кажется, что большинство проблем связано с неправильным обращением. В частности, текстовые поля, которые выглядят как числа или даты, вызывают проблемы.
Кроме того, я мог бы работать непосредственно с текстовым файлом в стандартном текстовом редакторе. Это гарантирует, что я ввожу то, что записано. Однако это очень неудобный способ ввода данных (столбцы не выстраиваются в линию; сложно вводить данные просто в несколько ячеек и т. Д.).
Вопрос
- Какова хорошая стратегия для работы с файлами данных CSV или TSV? то есть, какая стратегия позволяет легко вводить данные и манипулировать ими, а также обеспечивает правильную интерпретацию введенного вами текста?