Как мы определяем «воспроизводимые исследования»?


50

Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к ​​«воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода?

Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность щелкнуть «Выполнить» и получить те же результаты. Подход, основанный на данных и кодах, по-видимому, предполагает, что данные являются правильными - что в сборе самих данных нет изъяна (часто в случае научного мошенничества часто явно ложным). Он также фокусируется на одной выборке целевой популяции, а не на повторяемости результатов на нескольких независимых выборках.

Почему тогда акцент делается на возможности повторного анализа, а не на дублировании исследования с нуля?

Статья, упомянутая в комментариях ниже, доступна здесь .


Хороший вопрос ! В своем ответе я поместил ссылку на статью о Донохо, но каковы ваши письменные ссылки о воспроизводимых исследованиях?
Робин Жирар

У Рейтера и Кинни есть статья в выпуске « Эпидемиология » за этот месяц под названием «Обмен конфиденциальными данными для исследовательских целей: учебник», которая помогает понять, как сделать код и данные доступными в обстоятельствах, когда нельзя просто выбросить файл .csv, и необходимость обеспечения конфиденциальности остается неизменной.
Fomite

@EpiGrad, так как "этот месяц" прошел, было бы полезно иметь ссылку на статью. Спасибо, что задали отличный вопрос, который способствует CV и анализу науки / данных!
gung - Восстановить Монику

@gung Какая это статья?
Fomite

@EpiGrad чуть выше, Райтер и Кинни. +1 btw
gung - Восстановить Монику

Ответы:


41

«Воспроизводимые исследования» как воспроизводимый анализ

Воспроизводимые исследования - это термин, используемый в некоторых областях исследований для обозначения конкретно проведения таких анализов, что

  • код преобразует необработанные данные и метаданные в обработанные данные,
  • код выполняет анализ данных и
  • код включает анализы в отчет.

Когда такие данные и код используются совместно, это позволяет другим исследователям:

  • выполнять анализы, о которых не сообщалось первыми исследователями
  • проверить правильность анализов, выполненных оригинальными исследователями

Такое использование можно увидеть в обсуждениях таких технологий, как Sweave . Например, Фридрих Лейш пишет в контексте Sweave, что «отчет может автоматически обновляться при изменении данных или анализа, что позволяет проводить действительно воспроизводимые исследования». Это также можно увидеть в представлении задач CRAN по воспроизводимым исследованиям, в котором говорится, что «цель воспроизводимых исследований - привязать конкретные инструкции к анализу данных и экспериментальным данным, чтобы стипендию можно было воссоздать, лучше понять и проверить».

Более широкое использование термина «воспроизводимость»

Воспроизводимость является фундаментальной целью науки. Это не ново. Отчеты об исследованиях включают в себя разделы о методах и результатах, в которых должно быть указано, как данные генерировались, обрабатывались и анализировались. Общее правило заключается в том, что предоставленных данных должно быть достаточно, чтобы позволить компетентному исследователю принять предоставленную информацию и воспроизвести исследование.

Воспроизводимость также тесно связана с понятиями воспроизводимости и обобщения.

Таким образом, термин «воспроизводимые исследования», взятый буквально применительно к таким технологиям, как Sweave, является неправильным, поскольку он предполагает значимость, более широкую, чем он охватывает. Кроме того, представляя такие технологии, как Sweave, исследователям, которые не использовали такие технологии, такие исследователи часто удивляются, когда я называю этот процесс «воспроизводимым исследованием».

Лучший термин, чем «воспроизводимые исследования»

Принимая во внимание, что «воспроизводимые исследования», используемые в контекстах типа Свива, относятся только к одному аспекту воспроизводимых исследований, возможно, следует принять альтернативный термин. Возможные альтернативы включают в себя:

Все вышеперечисленные термины являются более точным отражением того, что влечет за собой анализ типа Свива. Воспроизводимый анализ короток и приятен. Добавление «данных» или «статистических данных» дополнительно проясняет ситуацию, но также делает термин как более длинным, так и более узким. Кроме того, «статистический» имеет узкое и широкое значение, и, безусловно, в рамках узкого значения большая часть обработки данных не является статистической. Таким образом, широта, подразумеваемая термином «воспроизводимый анализ», имеет свои преимущества .

Дело не только в воспроизводимости

Другая дополнительная проблема, связанная с термином «воспроизводимые исследования», заключается в том, что целью технологий, подобных Свиву, является не просто «воспроизводимость». Есть несколько взаимосвязанных целей:

  • Воспроизводимость
    • Можно ли повторно провести анализ, чтобы преобразовать необработанные данные в окончательный отчет с теми же результатами?
  • правильность
    • Соответствует ли анализ данных намерениям исследователя?
    • Верны ли намерения исследователя?
  • откровенность
    • Прозрачность, ответственность
      • Могут ли другие проверять и проверять точность выполненных анализов?
    • Расширяемость, модифицируемость
      • Могут ли другие изменять, расширять, повторно использовать и объединять данные, анализы или и то, и другое для создания новых исследовательских работ?

Существует аргумент, что воспроизводимый анализ должен способствовать правильному анализу, потому что есть письменный отчет об анализах, которые можно проверить. Кроме того, если данные и код используются совместно, это создает ответственность, которая побуждает исследователей проверять свои анализы и позволяет другим исследователям отмечать исправления.

Воспроизводимый анализ также тесно связан с концепциями открытых исследований. Конечно, исследователь может использовать технологии, подобные Sweave, только для себя. Открытые исследовательские принципы поощряют совместное использование кода данных и анализа для обеспечения большего повторного использования и подотчетности.

Это не совсем критика использования слова «воспроизводимый». Скорее, это просто подчеркивает, что использование технологий, подобных Sweave, необходимо, но недостаточно для достижения целей открытого научного исследования.


2
(+1) Отличный ответ, очень хорошие моменты. Я согласен, что мы должны назвать то, что Свив и его друзья делают воспроизводимый анализ .
NRH

1
(+1) хороший обзор. но я хотел бы отметить, что термин «необработанные данные» является неоднозначным и может вводить в заблуждение - данные обычно обрабатываются до стадии, на которой они считаются «необработанными», только для того, чтобы получить их в машину.
Дэвид Лебауэр

@Jeromy Anglim Это отличный ответ, и он лежит в основе того, что мешает мне в семантике «воспроизводимых исследований» - он используется для описания процесса, который происходит только после завершения процесса генерации данных. Мне нравится идея «Воспроизводимый анализ» как термин.
Fomite

+1 @Jeromy Anglim, я недавно связался с автором, чтобы узнать, сможет ли он / она поделиться Rкодом, использованным в публикации, автор отказался это сделать и указал мне на публикацию. По вашему мнению, вы бы сочли это отсутствием открытости для воспроизводимых исследований или достаточно сделать методологию явной в журнале и позволить другим программировать код самостоятельно? Спасибо
синоптик

11

Доступ к данным и коду для анализа в удобной для исполнения форме является непременным условием воспроизводимых исследований. Убедившись, что анализ работает, вы можете заменить свой собственный код / ​​данные там, где вы скептически относитесь к исходному автору. Я бы сказал, что большинство статей, содержащих статистику, которые я читаю, содержат, по крайней мере, одну часть методологии, которая остается неопределенной. Мои попытки воспроизвести эти анализы часто оказываются безуспешными (и всегда отнимающими много времени), но очень трудно сказать, связано ли это с мошенничеством, человеческими ошибками или (гораздо более вероятно) моим решением этих двусмысленностей иначе, чем автор. Таким образом, наличие данных + код для бумаги не гарантирует, что ее выводы верны, но это значительно облегчает их критику или расширение.

Также «воспроизводимые исследования» это вопрос степени. Таким образом, движение воспроизводимых исследований можно рассматривать как обнадеживающее исследование, которое «более воспроизводимо», чем норма, а не требует, чтобы исследования соответствовали некоторому минимальному порогу. Я полагаю, что «выпуск данных и кода» сейчас в моде, потому что это относительно простой и не угрожающий шаг.


9

Возможность повторного запуска всего является отправной точкой для воспроизводимых исследований. Это позволяет показать, что вы на самом деле используете ту же процедуру. После этого, и только после этого, вы можете продолжить исследование своего сверстника. Другими словами, строгая воспроизводимость не должна восприниматься как время, в которое исследование продвигается вперед, а как ориентир, консенсус , то, с чем люди согласны. Разве это не фундаментально, чтобы идти дальше?

Кроме того, согласно обсуждению Донохо (см. Раздел 2 «Скандал»), целью воспроизводимых исследований также является проверка надежности данного кода. Сначала, играя с кодом, сделав модификацию sligth, которая не была сделана в газете (потому что мы не хотим бумаги с 30 рисунками ...). Я думаю, что концепция воспроизводимых исследований в литературе содержит идею наличия сильной и надежной вехи. Это почти содержит идею идти дальше.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.