Вопросы с тегом «reproducible-research»

Практика исследований, заключающаяся в том, чтобы сделать общедоступным полное описание эксперимента, все собранные данные и все сценарии анализа данных, чтобы опубликованные результаты можно было воспроизвести где-либо еще.

2
Как много мы знаем о p-хакерстве «в дикой природе»?
Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ только «интересного» подмножества данных , в котором был найден паттерн; отсутствие правильной настройки для многократного …

15
Полные содержательные примеры воспроизводимых исследований с использованием R
Вопрос: Есть ли хорошие примеры воспроизводимых исследований с использованием R, которые свободно доступны онлайн? Идеальный пример. В частности, идеальные примеры могли бы обеспечить: Необработанные данные (и в идеале метаданные, поясняющие данные), Весь код R, включая импорт, обработку, анализ и генерацию данных, Sweave или какой-то другой подход для привязки окончательного результата …

8
Генерация случайной величины с определенной корреляцией с существующей переменной
Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако невозможно зафиксировать одну из результирующих переменных в существующей переменной. Любые идеи и ссылки на существующие функции …

3
Как мы определяем «воспроизводимые исследования»?
Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к ​​«воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность щелкнуть «Выполнить» и получить те же результаты. Подход, …

8
Как заставить людей лучше заботиться о данных?
На моем рабочем месте работают сотрудники из самых разных дисциплин, поэтому мы генерируем данные в самых разных формах. Следовательно, каждая команда разработала свою собственную систему хранения данных. Некоторые используют базы данных Access или SQL; некоторые команды (к моему ужасу) почти полностью зависят от электронных таблиц Excel. Часто форматы данных меняются …

5
Является ли p-значение бесполезным и опасным для использования?
Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что [Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти пропавшего рыбака Джона Олдриджа (хотя пока не до сих пор …

6
Как повысить долгосрочную воспроизводимость исследований (особенно с использованием R и Sweave)
Контекст: в ответ на предыдущий вопрос о воспроизводимых исследованиях Джейк написал Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, …

3
Кому следовать на github, чтобы узнать о передовом опыте в анализе данных?
Полезно изучить код анализа данных экспертов. Недавно я просматривал github, и многие люди делятся там кодом анализа данных. Это включает в себя несколько пакетов R (которые, конечно, доступны непосредственно из CRAN), а также несколько примеров воспроизводимых исследований, особенно с использованием R ( см. Этот список R на github ). Кто …

2
Каковы некоторые стандартные практики для создания синтетических наборов данных?
В качестве контекста: при работе с очень большим набором данных меня иногда спрашивают, можем ли мы создать синтетический набор данных, в котором мы «знаем» отношения между предикторами и переменной ответа или отношения между предикторами. На протяжении многих лет я, кажется, сталкивался либо с одноразовыми синтетическими наборами данных, которые выглядят так, …

4
Как рецензент, могу ли я оправдать запрос данных и кода доступными, даже если журнал этого не делает?
Поскольку наука должна быть воспроизводимой, по определению растет признание того, что данные и код являются важным компонентом воспроизводимости, как обсуждалось на круглом столе в Йельском университете для совместного использования данных и кода . При рассмотрении рукописи для журнала, который не требует совместного использования данных и кода, могу ли я попросить, …

1
Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?
Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели word2vec. В статье сообщается о современных достижениях в анализе настроений с использованием …

1
Как создать цветные таблицы с помощью Sweave и Xtable? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую Sweave и Xtable для создания отчета. Я хотел бы добавить немного раскраски на стол. Но мне не удалось …

1
Что делать, если высокая точность проверки, но низкая точность испытаний в исследованиях?
У меня есть конкретный вопрос о проверке в исследованиях машинного обучения. Как мы знаем, режим машинного обучения требует от исследователей обучать свои модели данным обучения, выбирать модели-кандидаты по набору проверок и сообщать о точности на наборе испытаний. В очень строгом исследовании тестовый набор может использоваться только один раз. Тем не …

3
Варианты хостинга общедоступных данных
Итак, вы решили поддержать идею воспроизводимых исследований и хотите, чтобы ваши данные были доступны в Интернете для просмотра и использования людьми. Вопрос в том, где вы его размещаете? Моим первым стремлением, конечно, является частное веб-пространство, которое у меня есть на университетском сервере, но на самом деле эти вещи не так …

4
Последствия текущих дебатов о статистической значимости
В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти неоднозначные варианты выбора, например, включают в себя случай, который классифицируется как выброс, выполнение …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.