Как рецензент, могу ли я оправдать запрос данных и кода доступными, даже если журнал этого не делает?


23

Поскольку наука должна быть воспроизводимой, по определению растет признание того, что данные и код являются важным компонентом воспроизводимости, как обсуждалось на круглом столе в Йельском университете для совместного использования данных и кода .

При рассмотрении рукописи для журнала, который не требует совместного использования данных и кода, могу ли я попросить, чтобы данные и код были доступны

  1. для меня во время обзора
  2. публично на момент публикации (журнал поддерживает приложения)

Кроме того, как я могу сформулировать такой запрос?


обновление : хотя меня интересует общий случай, этот частный случай состоит из мета-анализа со всеми ранее опубликованными данными, а код представляет собой простые линейные модели в SAS

примечание стороны: возможность сделать вывод о перекрестном исследовании (как и цель метаанализа) была бы значительно улучшена, если бы больше исследований предоставили необработанные данные

обновление 2 :

Я запросил данные и код у редактора для целей обзора, редактор счел запрос обоснованным, и я получил запрошенный материал (достаточный, но с загадочными именами переменных, без метаданных и несколькими встроенными комментариями) в течение дня.


3
Лично я был бы в порядке с кодом в большинстве случаев. Данные это еще одна проблема. Если он уже не является общедоступным, у меня, вероятно, не будет разрешения поделиться им с кем-либо. Я подозреваю, что это делает запрос данных необоснованным во многих обстоятельствах.
Энди W

4
Это звучит как то, что вы должны обсудить со своим ассоциированным редактором или редактором. Если они выполняют свою работу, они должны быть в состоянии предоставить вам руководство и, вероятно, послужат точкой контакта для авторов для любого такого запроса.
кардинал

1
Мне кажется, что многие примеры и последующее обсуждение основаны на анекдотических ситуациях, которые могут сильно варьироваться в зависимости от дисциплины и данных, о которых мы говорим. Конечно, некоторые ситуации представляются совершенно разумными для распространения данных, но это не обязательно характеризует все ситуации. Этот вопрос превращается в разглагольствование очень быстро!
Энди У

1
@ И есть ли какие-нибудь предложения о том, как уйти от разглагольствования? например, различия, которые должны быть сделаны в ОП или правки в ответах (в конце концов, это CW).
Абэ

1
Я думаю, что эта форма имеет уклон выбора :-). Большинство из нас здесь, потому что большинство из нас поддерживают идею ОП в некотором роде.
Suncoolsu

Ответы:


7

Что касается получения данных в качестве рецензента, вы имеете право на это, если вам это необходимо для правильного завершения рецензирования. Больше рецензентов должны запрашивать данные и оценивать их. У многих журналов есть политики, которые могут требовать данных и кода анализа для проверки.

Доступность на момент публикации мне не ясна. Кажется, вы говорите, что хотите заставить проблему сделать данные общедоступными в качестве условия публикации. Это плохая идея, если это уже не политика журнала. Вы делаете публикацию несправедливой движущейся целью. Они подали, ожидая, что это не будет требованием, и вы, ни редактор, не должны менять игру.

Без ведома многих исследователей, финансируемых государством, они обязаны сделать свои данные общедоступными. Например, большинство грантов NIH имеют пункты, в которых исследователь должен предоставить свои данные. У большинства государственных учреждений, предоставляющих гранты, есть положения об обмене данными, которые вынуждают исследователя делиться тем, что они находят (возможно, сила немного сильна, учитывая, что очень трудно потерять грант из-за этого ... возможно, потерять обновление). Общественность заплатила за данные, поэтому общественность имеет право на них - в случае исследований на людях, имеющих право на их анонимность.

Некоторые из наиболее дорогих и конфиденциальных данных для сбора, данные FMRI человека, также являются одними из наиболее общедоступных. Не только PLoS, но и крупные полевые журналы требуют представления данных и поддерживают общедоступный банк данных. Я думаю, что это говорит о многом людям, которые возражают по причинам стоимости (это очень дорого) и конфиденциальности (это человеческие данные из небольших исследований, а иногда и уникальные клинические группы, которые могут быть очень чувствительными). Это причины, которые делают эти данные более ценными для общественности. Исследователи, которые скрывают такие данные, оказывают плохую услугу людям, которые их купили (всем), и нуждаются в уроке о том, что их обязанности находятся за пределами их маленькой лаборатории и конкурса публикаций.

Если исследование было профинансировано из частных источников, действительно из частных источников, тогда удачи.


Я согласен с большей частью того, что в этом есть - уже есть требования раскрывать данные - обычно другим квалифицированным исследователям - в грантах, финансируемых NIH, и тому подобное. Но я думаю, что распространение этого требования на специальное требование для публикации значительно превосходит роль рецензента.
Fomite

1
(+1) Задумчивый, хорошо сформулированный ответ. Следует иметь в виду, что у этого сайта довольно международная аудитория. Я хотел бы надеяться, что больше исследователей примут совместную точку зрения на свои исследования и данные, даже если ни NIH, ни другая организация не покрутят их руку.
кардинал

EpiGrad, в случае, если из ответа не ясно, я чувствовал, что сделал специальное требование для публикации не только за пределы рецензента, но и редактора.
Джон

Кардинал, спасибо за комплимент. Спасибо за напоминание. Я стараюсь помнить, что сайт международный. Как ни велик NIH, это не в моей стране. ;)
Джон

@John. Да - я просто забыл поставить +1, соглашаясь с тобой :)
Fomite

6

Рассматривая две ситуации отдельно:

Как рецензент: Да, я думаю, у вас есть основания попросить посмотреть данные или код. Но на вашем месте я бы приготовился увидеть такие вещи, как урезанный код или фрагмент данных. Люди внедряют будущие исследования, о которых не говорится в этом документе в своем коде все время, и вы не имеете права на этот код. Поскольку я в основном занимаюсь биомедицинскими исследованиями, я также был бы готов иметь дело с некоторыми довольно ограничительными соглашениями об использовании данных.

В самом журнале: Нет. Если исследователь хочет воспроизвести мои результаты, они могут сами обратиться ко мне, чтобы попросить код - вот почему у нас есть соответствующие авторы. Для данных, абсолютно нет, ни при каких обстоятельствах. Мои данные регулируются IRB и соглашениями о конфиденциальности - они не будут обнародованы. Если я хочунабор общедоступных данных, я мог бы смоделировать набор данных с похожими свойствами (т. е. сетевые данные «Faux-Mesa», доступные в одном из сетевых пакетов для R), но, как рецензент, у вас нет вызова, чтобы заставить это , Если это требование для всего журнала, то авторы знали, что их данные / код будут общедоступными при отправке, но если нет, то нет. Ваша роль состоит в том, чтобы оценить качество самой статьи (следовательно, я согласен с ней для целей обзора), а не использовать вашу способность внести свой вклад в принятие / отклонение статьи, чтобы выдвинуть то, что по сути является философско-политической точкой выходит за рамки журнала.

В лучшем случае я бы добавил в ваши комментарии фразу «я бы настоятельно призвал авторов сделать их код и данные доступными, где это возможно», но я бы не стал формулировать это сильнее, и я бы не стал официальный список «Вещи, которые, я думаю, нужно исправить, прежде чем это увидит свет».


Просто обратил внимание на ваши правки: в данном случае, что касается статьи, ответом на самом деле является более сильное «нет» - при условии, что статья имеет цитаты. Если целью запроса является «воспроизводимое исследование», а данные общедоступны, то нет никаких причин, по которым исследователь, пытающийся подтвердить результаты, не смог бы сделать это самостоятельно. Кроме того, если целью является на самом деле оценка науки, а не просто демонстрация того, что вы тоже можете нажать «Выполнить» и получить те же результаты, то сам процесс поиска и абстрагирования в грамотном письме является частью проверки результата.
Fomite

для того, чтобы исследование было воспроизводимым, должна быть доступна версия кода и данных, использованных в анализе, и код, не используемый в анализе, не должен ожидаться (или обязательно иметь значение).
Дэвид Лебауэр

@EpiGrad: На каком-то уровне я не совсем согласен с этим сильным нет . В последнее время Кейт Баггерли занимается этой темой и делает некоторые интересные наблюдения. См., Например, KA Baggerly и KR Coombes, Определение хемочувствительности из клеточных линий: криминалистическая биоинформатика и воспроизводимые исследования в биологии с высокой пропускной способностью , Ann. Appl. Стат. Том 3, № 4, с. 1309-1334. Также есть версия arxiv .
кардинал

Я знаю очень мало исследователей, финансируемых за счет грантов, у которых есть проблемы с IRB и конфиденциальностью, которые действительно ограничивают публикацию анонимных данных. Если вы находитесь в такой ситуации, это довольно редкий случай.
Джон

@EpiGrad Я также подвергаю сомнению сильное нет . Методы, используемые для получения необработанных данных к производной метрике в мета-анализе, часто требуют большого набора допущений, связанных с различиями в методологии и интерпретации, которые возникают на уровне отдельного исследования. В этом случае представлено более 200 исследований, поэтому время, необходимое для восстановления набора данных, будет непомерным - и в конечном итоге будет препятствовать достижению конечной цели развития науки.
Дэвид Лебауэр

5

Как говорит Джон, доступность данных для рецензентов должна быть легкой; Тщательный анализ должен включать повторение анализа и, как таковой, требует доступа к данным.

Что касается общедоступности данных после публикации, я бы сказал, что битва должна вестись в основном с журналом, а не с конкретной публикацией.

В более общем плане, финансирующие агентства и IRB все больше осознают, что обмен данными является как научно, так и этически необходимым компонентом исследований. Увеличивая доступность для повторного анализа, который может дать новые результаты правильных ошибочных отчетов, обмен данными увеличивает потенциальную выгоду для исследования, тем самым изменяя соотношение затрат и выгод в пользу участников исследования. Безусловно, необходимо информировать участников о возможности совместного использования их данных, а также необходимо установить меры предосторожности для предотвращения повышенного риска идентификации участников, но это может быть достигнуто в большинстве случаев. В своем собственном исследовании я заверяю участников (и мой IRB), что (1) данные будут храниться в строго зашифрованном формате (обновляется по мере развития технологии дешифрования),


1

У меня нет никакого опыта с этим, но мне кажется, что вы могли бы настаивать на # 1 как часть вашей собственной должной осмотрительности при рассмотрении их результатов. Я не понимаю, как вы можете настаивать на # 2, хотя.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.