Используют ли некоторые из вас электронную таблицу Документов Google, чтобы вести статистическую работу и делиться ею с другими?

Я знаю, что большинство из вас, вероятно, считают, что Документы Google по-прежнему являются примитивным инструментом. Это не Matlab или R и даже не Excel. Тем не менее, я сбит с толку мощью этого веб-программного обеспечения, которое просто использует возможности браузера (и совместимо со многими браузерами, которые работают совсем по-другому).

Майк Лоуренс, активный участник этого форума, поделился с нами электронной таблицей с помощью Документов Google, выполняя с ней довольно интересные вещи. Лично я воспроизвел довольно тщательную структуру тестирования гипотез (включая многочисленные параметрические и непараметрические тесты), первоначально сделанную в Excel в Документах Google.

Мне интересно, попробовали ли вы кто-нибудь из Google Docs и довел его до предела в интересных приложениях. Мне также интересно узнать об ошибках или недостатках, с которыми вы столкнулись в Документах Google.

Я задаю этот вопрос "для вики сообщества", обозначая, что нет лучших ответов на это. Это больше, чем опрос.

software computational-statistics

— Gaetan Lion
источник

Не могли бы вы дать ссылку на электронную таблицу, предоставленную Майком Лоуренсом?

— Энди W

Вот URL-адрес spreadsheets.google.com/… Это было связано с его вопросом stats.stackexchange.com/questions/2956/…

— Sympa

Документы Google, когда они были формально протестированы, выполняли большинство статистических вычислений (когда они вообще могли их выполнять). См. Келли Б. Килинг и Роберт Дж. Павур (2011): Статистическая точность программного обеспечения для электронных таблиц, Американский статистик, 65: 4, 265-273

— whuber

Ответы:

Мое основное использование для электронных таблиц Google было с формами Google, для сбора данных, а затем с легкостью импортировать их в R. Вот пост, который я написал об этом полгода назад:

Таблицы Google + формы Google + R = Простой сбор и импорт данных для анализа

Кроме того, если вы в сотрудничестве, мой инструмент выбора - DropBox. Я написал сообщение об этом несколько месяцев назад:

Синхронизация файлов между компьютерами с помощью DropBox

Сейчас я использую его около полугода в проекте с 5 соавторами, и это было неоценимо (синхронизация файлов данных от 3 авторов), каждый может увидеть последнюю версию выходных данных, которые я создаю, и все смотрят в том же файле .docx для статьи).

Оба сообщения предлагают видеоуроки и устные инструкции.

— Таль Галили
источник

Спасибо за ваш отзыв. Это именно тот тип комментариев, который меня заинтересовал. Вы действительно воспользовались компонентом обмена и импорта документов Google. Повезло тебе. Я прочитаю ваш материал, чтобы узнать больше об этом.

— Симпа

Дорогой Гаэтан, я рад твоему ответу - спасибо за добрые слова. Бест, Тал.

— Тал Галили

Как энтузиаст пользователя R, bash, Python, asciidoc, (La) TeX, программного обеспечения с открытым исходным кодом или любых других инструментов * * x, я не могу дать объективный ответ. Более того, поскольку я часто выступаю против использования MS Excel или электронных таблиц любого вида (ну, вы видите свои данные или их часть, но что еще?), Я бы не стал вносить позитивный вклад в дискуссию. Я не единственный, например

Зависимость от электронной таблицы от П. Бернса.
MS Excel точность и аккуратность , пост в списке рассылки 2004 R
Л. Кнусел, О точности статистических распределений в Microsoft Excel 97 , Вычислительная статистика и анализ данных, 26: 375–377, 1998. ( pdf )
BD McCullough & B. Wilson, О точности статистических процедур в Microsoft Excel 2000 и Excel XP , Вычислительная статистика и анализ данных , 40: 713–721, 2002.
М. Альтман, Дж. Гилл и М. П. Макдональд, Численные проблемы в статистических вычислениях для социолога , Wiley, 2004. [Например, с. 12–14]

Мой коллега потерял все свои макросы из-за отсутствия обратной совместимости и т. Д. Другой коллега попытался импортировать генетические данные (около 700 субъектов, генотипированных по 800 000 маркеров, 120 Мо), просто чтобы «посмотреть на них». Сбой Excel, Notepad тоже сдался ... Я могу "посмотреть на них" с помощью vi и быстро переформатировать данные с помощью некоторого сценария sed / awk или perl. Поэтому я думаю, что при обсуждении полезности электронных таблиц необходимо учитывать разные уровни. Либо вы работаете с небольшими наборами данных, и хотите применять только элементарные статистические данные, и, возможно, это нормально. Затем вам нужно доверять результатам, или вы всегда можете запросить исходный код, но, возможно, было бы проще провести быструю проверку всех встроенных процедур с помощью теста NIST, Я не думаю, что это соответствует хорошему способу ведения статистики просто потому, что это не настоящая статистическая программа (ИМХО), хотя, как обновление вышеупомянутого списка, более новые версии MS Excel, кажется, продемонстрировали улучшения в его точности для статистический анализ, см. Килинг и Павур, Сравнительное исследование надежности девяти пакетов статистического программного обеспечения ( CSDA 2007 51: 3811).

Тем не менее, примерно одна статья из 10 или 20 (в области биомедицины, психологии, психиатрии) включает графику, созданную в Excel, иногда без удаления серого фона, горизонтальную черную линию или автоматическую легенду (Эндрю Гельман и Хэдли Уикхем, безусловно, так же счастливы, как я когда это вижу). Но в более общем смысле, это, как правило, наиболее часто используемое «программное обеспечение», согласно недавнему опросу FlowingData, который напоминает мне о давних разговорах о Брайане Рипли (который является соавтором пакета MASS R и пишет превосходную книгу по распознаванию образов. среди прочих):

Давайте не будем обманывать себя: наиболее широко используемым программным обеспечением для статистики является Excel (Б. Рипли через Яна Де Леу), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Теперь, если вы чувствуете, что он предоставляет вам быстрый и простой способ сделать статистику, почему бы и нет? Проблема в том, что есть вещи, которые нельзя сделать (или, по крайней мере, это довольно сложно) в такой среде. Я думаю о начальной загрузке, перестановке, многовариантном исследовательском анализе данных и многих других. Если вы не очень хорошо разбираетесь в VBA (которая не является ни скриптом, ни языком программирования), я склонен думать, что даже незначительные операции с данными лучше обрабатываются в R (или Matlab, или Python), если вы получаете правильный инструмент для решения например, так называемый data.frame). Прежде всего, я думаю, что Excel не продвигает очень хорошие методы для аналитика данных (но это также относится к любому «кликодрому», см. Обсуждение в Medstats о необходимости вести учет обработки данных,Документирование анализа и редактирование данных ), и я нашел этот пост в « Практической статистике» относительно иллюстративным для некоторых ловушек Excel. Тем не менее, это относится к Excel, я не знаю, как это переводится в GDocs.

Что касается обмена вашей работой, я склонен думать, что Github (или Gist для исходного кода) или Dropbox (хотя EULA может отговорить некоторых людей) - очень хорошие варианты (история изменений, управление грантами, если необходимо, и т. Д.). Я не могу поощрять использование программного обеспечения, которое в основном хранит ваши данные в двоичном формате. Я знаю, что это может быть импортировано в R, Matlab, Stata, SPSS, но на мой взгляд:

данные должны быть обязательно в текстовом формате, который может быть прочитан другим статистическим программным обеспечением;
анализ должен быть воспроизводимым, то есть вы должны предоставить полный сценарий для своего анализа, и он должен в любой момент запускаться (мы подходим к идеальному случаю, близкому к этому ...) в другой операционной системе;
Ваше собственное статистическое программное обеспечение должно реализовывать общепризнанные алгоритмы, и должен быть простой способ обновить его, чтобы отразить современные лучшие практики статистического моделирования;
выбранная вами система обмена должна включать средства управления версиями и совместной работы.

Вот и все.

— chl
источник

@Gaetan Помимо моего ответа, я дал +1 к вопросу, потому что я думаю, что он очень важен для обсуждения статистической практики и управления проектами.

— ЧЛ

Комментарий для downvote будет принята с благодарностью.

— ЧЛ

@chl: хотя я не понизил этот ответ, я думаю, что понимаю, почему можно было бы понизить его. Предоставленная вами информация верна, очень, очень важна и заставляет задуматься. ОДНАКО, большинство из них (за исключением двух последних абзацев) не отвечают на вопрос. В идеале можно написать этот большой отказ от ответственности в другом месте и дать ссылку на него.

— Борис Горелик

@chl: несмотря на то, что я сказал в своем комментарии, я люблю ваш ответ и проголосую за него

— Борис Горелик

@bgbg Спасибо за ваш комментарий. Может быть, я не ответил на вопрос CW. Однако я никогда не собирался давать чисто провокационный ответ. ОП задал вопрос о потенциальных «ошибках и недостатках» в GDocs: я привожу иллюстрации того, что я знаю из Excel, признавая тот факт, что я не знаю, как это будет переводиться в GDocs. Я также понимаю часть вопроса как «в чем преимущества использования GDocs для анализа данных», и я просто привел некоторые аргументы против использования электронных таблиц для крупномасштабных проектов или анализа на переднем крае (тем не менее, я признал на начало что бы это было предвзято).

— ЧЛ

«Мне также интересно узнать об ошибках или недостатках, с которыми вы столкнулись в Документах Google».

Я отвечу только на ту часть исходного вопроса. Мои исследования с таблицами Google Docs (GSheets) были связаны с математическими и статистическими функциями. В конце концов, моя оценка состоит в том, что Google Spreadsheets в этом отношении значительно уступает в 2012 году клеветой Excel 1997 года.

Свидетель: Google Sheets, по-видимому, оценивает erfc (x), используя erfc (x) = 1-erf (x) для аргументов, для которых erf (x) близка к 1. Они оценивают стандартное отклонение или дисперсию через среднее значение квадратов минус квадрат среднего; это плохая численная практика. Комбинаторные функции и дискретные вероятности, такие как пуассон (n, x) = pow (x, n) * exp (-x) / n! оцениваются фактор за фактором, вызывая ненужное переполнение. Факториал оценивается с использованием аппроксимации по Стирлингу, что вызывает дальнейшее ненужное переполнение. Кумулятивное распределение Пуассона оценивается простым выполнением конечной суммы, поэтому свойство округления теряется при округлении; то же самое верно для кумулятивного биномиального распределения. Совокупное нормальное распределение полностью испорчено; он выходит за пределы диапазона [0,1]. Существует общая потеря точности относительно реализации тех же функций в других пакетах. Описания элементарных функций, таких как округление, часто искажены и неразборчивы; интерпретация - игра в догадки.

Я задокументировал эти проблемы в двух группах сообщений на форумах по продуктам Google Документов:

(2011-11-13 и более поздние версии) normdist по-прежнему создает отрицательное значение https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 и более поздние версии) Ошибки и другие проблемы со статистическими и математическими функциями в GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

— Бас Браамс
источник

(+1) Другими словами, кажется очевидным, что ( многие! ) Статистики в Google никоим образом не участвуют в этом проекте.

— кардинал

Единственной частью Google Docs, которую я использовал, является редактор, который очень полезен при совместном редактировании в реальном времени . Я не думаю, что мерзавец и друзья решают эту проблему!

— kjetil b halvorsen