Полные содержательные примеры воспроизводимых исследований с использованием R


71

Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн?

Идеальный пример. В частности, идеальные примеры могли бы обеспечить:

  • Необработанные данные (и в идеале метаданные, поясняющие данные),
  • Весь код R, включая импорт, обработку, анализ и генерацию данных,
  • Sweave или какой-то другой подход для привязки окончательного результата к итоговому документу,
  • Все в формате, который легко загружается и компилируется на компьютере читателя.

В идеале, примером может быть статья в журнале или тезис, где акцент делается на реальной прикладной теме, а не на статистическом учебном примере.

Причины интереса: меня особенно интересуют прикладные темы в журнальных статьях и тезисах, потому что в этих ситуациях возникает несколько дополнительных вопросов:

  • Возникают проблемы, связанные с очисткой и обработкой данных,
  • Возникают проблемы, связанные с управлением метаданными,
  • Журналы и тезисы часто имеют ориентиры по стилю относительно внешнего вида и форматирования таблиц и рисунков,
  • Многие журналы и тезисы часто имеют широкий спектр анализов, которые поднимают вопросы, касающиеся рабочего процесса (например, как упорядочить анализ) и времени обработки (например, вопросы анализа кэширования и т. Д.).

Просмотр полных рабочих примеров может дать хороший учебный материал для исследователей, начинающих с воспроизводимых исследований.

Ответы:


14

Фрэнк Харрелл много лет играл на барабанах по воспроизводимым исследованиям и отчетам. Вы можете начать с этой вики-страницы, где перечислены многие другие ресурсы, включая опубликованные исследования, а также страница Чарльза Гейера.


11

В журнале Biostatistics есть заместитель редактора по воспроизводимости, и все его статьи помечены:

Воспроизводимые исследования

Наша политика воспроизводимых исследований заключается в том, чтобы статьи в журнале были помечены воздушным змеем D, если данные, на которых они основаны, находятся в свободном доступе, C, если авторский код находится в свободном доступе, и R, если доступны и данные, и код, и наш Ассоциированный редактор по воспроизводимости может использовать их для воспроизведения результатов в документе. Данные и код публикуются в электронном виде на веб-сайте журнала в качестве дополнительных материалов.

http://biostatistics.oxfordjournals.org/

Насколько хорошая идея это?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract поставляется с пакетом R в дополнениях, который выполняет анализ - я еще не пробовал сам. Также не могу узнать, где указан рейтинг открытости. По электронной почте ассоциированному редактору с некоторыми вопросами ...

[редактировать]

Роджер Пенг, младший редактор, говорит, что, вероятно, нет способа найти воспроизводимые документы без получения PDF. Он указал мне на этот, который имеет хороший большой «R» на нем (что не означает R-рейтинг, как фильмы) для воспроизводимости:

http://biostatistics.oxfordjournals.org/content/10/3/409.abstract

Конечно, сам журнал не бесплатен ...

Барри


1
замечательно видеть журнал, устанавливающий приоритеты воспроизводимости. Вы видели какие-нибудь хорошие примеры статей с пометкой R?
Джером Энглим

1
Они не расставляют приоритеты для публикации, я думаю, что они просто хотят выделить это. Я отредактирую свой ответ на примере.
космонавт

10

Неразвитость NCI60 Предикторы химиотерапии

Это воспроизводимый анализ, показывающий отсутствие воспроизводимости статьи, которая была в новостях. Клиническое испытание, основанное на ложных выводах из невоспроизводимой статьи, было приостановлено, восстановлено, вновь приостановлено ... Это хороший пример воспроизводимого анализа в новостях.


10

У меня есть несколько таких примеров на моей странице научных работ . (Мне не разрешено публиковать более одной гиперссылки в качестве нового участника. Поэтому я просто опишу статьи на этом сайте.)

(1) «Создание эффектов в рандомизированных экспериментах» использует систему виньеток R.

(2) «Присвоение эффектов кластерной рандомизированной кампании« Выйти-и-голос »» было более сложным документом, включающим некоторые трудоемкие симуляции. Мы использовали систему на основе Makefile и разместили ее в Dataverse

(3) «EDA для HLM» была моей первой попыткой. Здесь я просто поместил данные и связанные файлы Sweave в архив.

Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию для пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, сломается, поскольку люди меняют свои пакеты (не уверен, как включить дополнительные пакеты в пакет, который является Компендиумом).

Наконец, мне интересно, что делать, когда само R меняется. Существуют ли способы создания, скажем, виртуальной машины, которая воспроизводит всю вычислительную среду, используемую для бумаги, так, чтобы виртуальная машина не была огромной?

Во всяком случае, я надеюсь, что эти примеры помогут. По крайней мере, они показывают некоторые из моих собственных экспериментов в этой области.

(Вот некоторые текстовые гиперссылки.)

  [2]: http://jakebowers.org/manifesteffects-compendium-howto.txt
  [3]: http://hdl.handle.net/1902.1/12174
  [4]: http://hdl.handle.net/1902.1/13376

Вы поднимаете некоторые интересные вопросы. Я опубликовал отдельный вопрос, цитирующий вас: stats.stackexchange.com/questions/4466/…
Jeromy Anglim

9

Koenker и Zeileis предоставляют веб-страницу с относительно полным примером. Они делят:

  • Rnw (код Sweave)
  • R анализ кода
  • Окончательный PDF
  • Обсуждение вопросов контроля версий

8

Мы написали статью, объясняющую, как использовать R / Bioconductor при анализе данных микрочипов. Документ был написан на Sweave, и весь код, использованный для создания графиков, включен в качестве дополнительного материала.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010. Анализ данных микрочипов временного курса дрожжей с использованием BioConductor: тематическое исследование с использованием массивов дрожжей2 Affymetrix BMC Research Notes, 3:81.


7

На странице Чарльза Гейера на Sweave есть пример из диссертации, который отвечает некоторым вашим требованиям (необработанные данные просто из пакета R, но доступны код R / sweave и окончательный PDF):

В статье по теории, изложенной в диссертации Юн Джу Сена «Вывод вероятности Монте-Карло для отсутствующих моделей данных» (препринт), содержались вычислительные примеры. Каждый номер в газете и каждый сюжет были взяты (я должен признать, вырезанным и вставленным) из документа «дополнительные материалы», сделанного в Sweave.

( Исходный файл связан с разделом «Дополнительные материалы для бумаги».)

Я знаю, что сталкивался хотя бы с одним примером R, просматривавшим страницу материала ReproducibleResearch.net , но, к сожалению, не добавил его в закладки.


5

У Саймона Джекмана есть особенно полезный пример анализа результатов опроса: «Американцы и австралийцы спустя 10 лет после 11 сентября». Он имеет несколько примеров интеграции таблиц и рисунков.

Он сделал документ Sweave и отчет в формате PDF через это сообщение в блоге .

Хотя исходные данные не предоставляются (насколько я могу судить), поэтому невозможно запустить реальные примеры Sweave, я думаю, что при изучении кода Sweave можно извлечь немалую пользу.


5

Нил Сондерс проанализировал онлайн-взаимодействия, связанные с конференцией. Несколько свойств, которые делают его полезным примером Sweave, включают:

  • Rnw файл предоставляется
  • Графики создаются с использованием ggplot
  • Хороший размер и легко понятный домен

Материалы доступны здесь:


4

Также посмотрите на журнал статистического программного обеспечения ; они поощряют делать бумаги в Sweave.


Нет, не формально - подача LaTeX обнадеживает, но если вы посмотрите на страницу с инструкциями, она не содержит слова Sweave. Авторы действительно используют его и / или отправляют код R вместе с бумагой, но для меня это подтверждает мнение Шейна о виньетках пакетов.
Дирк Эддельбюттель

Хорошо, все же большинство авторов используют его (также стиль журнала включает Swave.sty); главная проблема заключается в том, что Rnws не публикуются, однако статьи, сделанные Sweave, выходят с Stangle.

4

Я нашел хорошие в прошлом и опубликую, как только выкопаю их, но несколько быстрых общих советов:

  1. Вы можете найти несколько интересных примеров, выполнив поиск в Google по ключевым словам и ext: rnw (который будет искать файлы с расширением sweave). Вот пример поиска . Это третий результат моего поиска: http://www.ne.su.se/paper/araietal_source.Rnw . Вот еще один пример из моего поиска: http://www.stat.umn.edu/geyer/gdor/ .
  2. Многие пакеты R имеют интересные виньетки, которые по сути равны. Пример: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw

4

Роберт Джентльман написал статью под названием «Воспроизводимые исследования: тематическое исследование по биоинформатике»

Он реализует короткий набор анализов в виде пакета R и использует Sweave. Это также обсуждает использование Sweave более широко.

В разделе «Связанные файлы» на странице статьи приведен архивный файл всех используемых файлов и папок.

Ссылка:

  • Джентльмен, Роберт (2005) "Воспроизводимые исследования: тематическое исследование биоинформатики", Статистические приложения в генетике и молекулярной биологии: Vol. 4: выпуск 1, статья 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Доступно по адресу: http://www.bepress.com/sagmb/vol4/iss1/art2

4

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Хорошая статья, написанная моим товарищем по лаборатории. Наш PI был очень доволен, когда пришло что-то похожее на письмо фанатов. Теперь все публикации группы имеют дополнительные методы, изложенные в LaTeX / Sweave. Некоторые из бумаг тоже (не могу решить, оставить ли мне в LyX / Sweave или сбросить и просто сделать дополнения в Sweave).


3

Поиск примеров и методов - хороший способ изучения, но я просто хотел упомянуть, что воспроизводимость имеет не только техническую сторону / сторону повторного запуска скрипта, но также аспект стиля и структурирования кода, минимизацию побочных эффектов в основных функциях и т. Д. Я лично обнаружил, что Книга Чамберса «Программное обеспечение для анализа данных» позволяет более глубоко понять методы, которые помогают избежать проблем надежности и воспроизводимости на уровне кода R.


2

если вам все еще нужен отличный пример полностью воспроизводимого анализа плюс бумага, используйте этот репозиторий .

@Jscamac проделал большую работу, сделав свой анализ результативным, и я лично проверил его.

Вы можете полагаться на то, как использовать R-специфичные функции, такие как пакет, remakeдля обеспечения воспроизводимости.

Остерегайтесь / расчеты занимают около часа.

Все это написано по сценарию и выдает LaTeX-бумагу в конце с цифрами.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.