Я подчеркиваю все ответы, данные уже, но давайте назовем кошку кошкой: во многих рабочих пространствах вряд ли можно убедить руководство в том, что инвестиции в «экзотические» программные инструменты (то есть экзотические для них) необходимы, не говоря уже о найме кого-то, кто мог бы установить это и поддерживать его. Я говорил довольно многим клиентам, что им было бы очень полезно нанять статистика с глубоким опытом работы с программным обеспечением и базами данных, но «не может сделать» - это общий ответ.
Поэтому до тех пор, пока этого не произойдет, есть несколько простых вещей, которые вы можете сделать с помощью Excel, которые облегчат жизнь. И первым из них, без сомнения, является контроль версий. Более подробную информацию об управлении версиями с помощью Excel можно найти здесь .
Некоторые вещи об использовании Excel
Людям, использующим EXCEL, очень часто нравятся особенности формул EXCEL. Тем не менее, это самый важный источник ошибок в листах EXCEL и проблем при попытке прочитать файлы EXCEL, насколько мне известно. Я отказываюсь работать с листами, содержащими формулы.
Я также заставляю всех, с кем я работаю, доставлять листы EXCEL в простом формате, что означает:
- Первая строка содержит имена разных переменных
- Электронная таблица начинается в ячейке A1
- Все данные помещаются в столбцы без прерываний и без форматирования.
- Если возможно, данные сохраняются также в формате .csv. Нетрудно написать сценарий VBA, который будет извлекать данные, переформатировать их и помещать в файл .csv. Это также позволяет улучшить контроль версий, так как вы можете делать .csv дамп данных каждый день.
Если у данных есть общая структура, то может быть полезно разработать шаблон с базовыми макросами VB для добавления данных и создания набора данных для анализа. Это в целом позволит избежать того, что каждый сотрудник придумает свою собственную «гениальную» систему хранения данных, и это позволит вам написать свой код в зависимости от этого.
При этом, если вы можете убедить всех использовать SQL (и интерфейс для ввода данных), вы можете связать R непосредственно с этим. Это значительно повысит производительность.
Структура данных и управление
Как правило, данные, хранящиеся в базах данных (или на листах EXCEL, если они настаивают), должны быть абсолютным минимумом, означающим, что любая переменная, которая может быть рассчитана из некоторых других переменных, не должна содержаться в базе данных. Имейте в виду, иногда может быть полезно хранить и эти производные или преобразованные переменные, если вычисления утомительны и занимают много времени. Но они должны храниться в отдельной базе данных, при необходимости связанной с исходной.
Следует также подумать о том, что рассматривается как один случай (и, следовательно, один ряд). Как пример, люди, как правило, создают временные ряды, создавая новую переменную для каждой временной точки. Хотя это имеет смысл в EXCEL, чтение этих данных требует некоторого переворачивания матрицы данных. То же самое для сравнения групп: должен быть один индикатор группы и одна переменная ответа, а не переменная ответа для каждой группы. Таким образом, структуры данных также могут быть стандартизированы.
Последнее, с чем я часто сталкиваюсь, это использование разных метрик. Длина дана в метрах или сантиметрах, температура в градусах Цельсия, Кельвина или Фаренгейта, ... В любом внешнем интерфейсе или любом шаблоне следует указать, в каких единицах измерения измеряется переменная.
И даже после всего этого вам все равно нужно выполнить этап контроля данных, прежде чем вы начнете анализ. Опять же, это может быть любой скрипт, который запускается ежедневно (например, ночью) для новых записей, и который немедленно отмечает проблемы (вне диапазона, неправильного типа, пропущенных полей и т. Д.), Поэтому их можно исправить как можно быстрее. Если вам нужно вернуться к записи, которая была сделана 2 месяца назад, чтобы выяснить, что не так и почему, вам лучше воспользоваться хорошими «навыками Шерлока», чтобы исправить это.
мои 2 цента