Как энтузиаст пользователя R, bash, Python, asciidoc, (La) TeX, программного обеспечения с открытым исходным кодом или любых других инструментов * * x, я не могу дать объективный ответ. Более того, поскольку я часто выступаю против использования MS Excel или электронных таблиц любого вида (ну, вы видите свои данные или их часть, но что еще?), Я бы не стал вносить позитивный вклад в дискуссию. Я не единственный, например
- Зависимость от электронной таблицы от П. Бернса.
- MS Excel точность и аккуратность , пост в списке рассылки 2004 R
- Л. Кнусел, О точности статистических распределений в Microsoft Excel 97 , Вычислительная статистика и анализ данных, 26: 375–377, 1998. ( pdf )
- BD McCullough & B. Wilson, О точности статистических процедур в Microsoft Excel 2000 и Excel XP , Вычислительная статистика и анализ данных , 40: 713–721, 2002.
- М. Альтман, Дж. Гилл и М. П. Макдональд, Численные проблемы в статистических вычислениях для социолога , Wiley, 2004. [Например, с. 12–14]
Мой коллега потерял все свои макросы из-за отсутствия обратной совместимости и т. Д. Другой коллега попытался импортировать генетические данные (около 700 субъектов, генотипированных по 800 000 маркеров, 120 Мо), просто чтобы «посмотреть на них». Сбой Excel, Notepad тоже сдался ... Я могу "посмотреть на них" с помощью vi и быстро переформатировать данные с помощью некоторого сценария sed / awk или perl. Поэтому я думаю, что при обсуждении полезности электронных таблиц необходимо учитывать разные уровни. Либо вы работаете с небольшими наборами данных, и хотите применять только элементарные статистические данные, и, возможно, это нормально. Затем вам нужно доверять результатам, или вы всегда можете запросить исходный код, но, возможно, было бы проще провести быструю проверку всех встроенных процедур с помощью теста NIST, Я не думаю, что это соответствует хорошему способу ведения статистики просто потому, что это не настоящая статистическая программа (ИМХО), хотя, как обновление вышеупомянутого списка, более новые версии MS Excel, кажется, продемонстрировали улучшения в его точности для статистический анализ, см. Килинг и Павур, Сравнительное исследование надежности девяти пакетов статистического программного обеспечения ( CSDA 2007 51: 3811).
Тем не менее, примерно одна статья из 10 или 20 (в области биомедицины, психологии, психиатрии) включает графику, созданную в Excel, иногда без удаления серого фона, горизонтальную черную линию или автоматическую легенду (Эндрю Гельман и Хэдли Уикхем, безусловно, так же счастливы, как я когда это вижу). Но в более общем смысле, это, как правило, наиболее часто используемое «программное обеспечение», согласно недавнему опросу FlowingData, который напоминает мне о давних разговорах о Брайане Рипли (который является соавтором пакета MASS R и пишет превосходную книгу по распознаванию образов. среди прочих):
Давайте не будем обманывать себя: наиболее широко используемым программным обеспечением для статистики является Excel (Б. Рипли через Яна Де Леу), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Теперь, если вы чувствуете, что он предоставляет вам быстрый и простой способ сделать статистику, почему бы и нет? Проблема в том, что есть вещи, которые нельзя сделать (или, по крайней мере, это довольно сложно) в такой среде. Я думаю о начальной загрузке, перестановке, многовариантном исследовательском анализе данных и многих других. Если вы не очень хорошо разбираетесь в VBA (которая не является ни скриптом, ни языком программирования), я склонен думать, что даже незначительные операции с данными лучше обрабатываются в R (или Matlab, или Python), если вы получаете правильный инструмент для решения например, так называемый data.frame). Прежде всего, я думаю, что Excel не продвигает очень хорошие методы для аналитика данных (но это также относится к любому «кликодрому», см. Обсуждение в Medstats о необходимости вести учет обработки данных,Документирование анализа и редактирование данных ), и я нашел этот пост в « Практической статистике» относительно иллюстративным для некоторых ловушек Excel. Тем не менее, это относится к Excel, я не знаю, как это переводится в GDocs.
Что касается обмена вашей работой, я склонен думать, что Github (или Gist для исходного кода) или Dropbox (хотя EULA может отговорить некоторых людей) - очень хорошие варианты (история изменений, управление грантами, если необходимо, и т. Д.). Я не могу поощрять использование программного обеспечения, которое в основном хранит ваши данные в двоичном формате. Я знаю, что это может быть импортировано в R, Matlab, Stata, SPSS, но на мой взгляд:
- данные должны быть обязательно в текстовом формате, который может быть прочитан другим статистическим программным обеспечением;
- анализ должен быть воспроизводимым, то есть вы должны предоставить полный сценарий для своего анализа, и он должен в любой момент запускаться (мы подходим к идеальному случаю, близкому к этому ...) в другой операционной системе;
- Ваше собственное статистическое программное обеспечение должно реализовывать общепризнанные алгоритмы, и должен быть простой способ обновить его, чтобы отразить современные лучшие практики статистического моделирования;
- выбранная вами система обмена должна включать средства управления версиями и совместной работы.
Вот и все.