Как и следовало ожидать от Хэдли, его статья содержит хорошее определение аккуратных данных, и я согласен почти со всем в его статье и считаю, что это применимо не только к «профессионалам в области данных». Однако некоторые из его замечаний относительно легко исправить (например, с помощью пакетов, которые он создал), если избежать некоторых более фундаментальных проблем. Большинство из этих проблем являются результатом широкого использования Excel. Excel является ценным инструментом и имеет свои достоинства, но некоторые его возможности создают проблемы для аналитиков данных.
Некоторые моменты (из моего опыта):
- Некоторые люди любят красочные электронные таблицы и широко используют параметры форматирования. Это все хорошо, если это помогает им организовать свои данные и подготовить таблицы для представления. Однако, это опасно, если цвет ячейки фактически кодирует данные. Эти данные легко потерять и очень трудно импортировать такие данные в статистическое программное обеспечение (например, см. Этот вопрос в Переполнении стека).
- Иногда я получаю некоторые красиво отформатированные данные (после того, как я рассказала людям, как их подготовить), но, несмотря на просьбу использовать для них отдельный столбец или отдельный файл, они решают поместить комментарий в столбец значений. Мало того, что мне нужно иметь дело с этим столбцом особым образом при импорте данных, но главная проблема заключается в том, что мне нужно прокручивать всю таблицу, чтобы увидеть такие комментарии (чего я обычно не делал бы). Это становится еще хуже, если они используют средства комментирования Excel.
- Таблицы с несколькими таблицами в них, несколькими строками заголовков или связанными ячейками приводят к ручной работе по подготовке их к импорту в статистическом программном обеспечении. Хорошие аналитики данных обычно не пользуются такой ручной работой.
- Никогда, никогда не скрывайте столбцы в Excel. Если они не нужны, удалите их. Если они нужны, покажи им.
- xls и его потомки не подходят для форматов файлов для обмена данными с другими или их архивирования. Формулы обновляются при открытии файла, и разные версии Excel могут обрабатывать файлы по-разному. Вместо этого я рекомендую простой CSV-файл, поскольку почти все программное обеспечение, связанное с данными, может импортировать его (даже Excel), и можно ожидать, что это скоро не изменится. Однако имейте в виду, что Excel сохраняет округленные цифры при сохранении в CSV (что снижает точность).
- Если вы хотите облегчить жизнь другим, придерживайтесь принципов, изложенных в статье Хэдли. Иметь столбец значений для каждой переменной и столбцы факторов, определяющие страты.
Вероятно, есть несколько дополнительных моментов, которые не приходили мне в голову.