Как справиться с поисковым анализом данных и дноуглубительными работами в исследованиях малых выборок?

Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных вопросников (социально-демографические данные, нейропсихологические или медицинские шкалы - например, умственное или физическое функционирование, уровень депрессии / тревоги, контрольный список симптомов). ). Бывает, что EDA помогает выделить некоторые неожиданные отношения («неожиданные», означающие, что они не были включены в первоначальный план анализа), что выражается в дополнительных вопросах / гипотезах.

Как и в случае с переобучением, выемка данных или отслеживание приводят к результатам, которые не обобщаются. Однако, когда доступно много данных, довольно трудно (для исследователя или врача) постулировать ограниченный набор гипотез.

Я хотел бы знать, существуют ли общепризнанные методы, рекомендации или практические правила, которые могут помочь определить ЭДА в случае исследований с малой выборкой.

— хл
источник

Я не совсем уверен, почему размер вашего образца имеет значение. Можете ли вы предложить более конкретные рассуждения о том, почему вы думаете, что оно отличается для малых n, чем для больших n?

— Энди W

13 < n < 25

$13<n<25$

n

$n$

σ

$\sigma$

Я думаю, что могу понять это чувство, если вас интересует только классификация. Я думаю, что для причинно-следственной связи проблемы со отслеживанием данных одинаковы (то есть проблемы не решаются за счет увеличения способности идентифицировать отношения). Я постараюсь сформулировать это мнение в ответ. В то же время я могу задать вопрос на главном форуме об использовании перекрестной проверки для причинно-следственной связи, поскольку я не сталкивался с какой-либо работой в своей области, которая занимается этим.

— Энди W

@ Энди Спасибо. Надеюсь, на ваш вопрос будет получено много интересных ответов.

— ЧЛ

Ответы:

Я думаю, что главное, чтобы быть честным, сообщая о таких результатах, что они были неожиданными результатами от EDA, а не частью первоначального плана анализа, основанного на априорной гипотезе. Некоторые люди любят обозначать такие результаты как «генерирование гипотезы»: например, первое попадание при поиске этой фразы в Google Scholar включает следующее в заключительный раздел резюме:

Поскольку это был «исследовательский» анализ, этот эффект следует рассматривать как генерацию гипотез и оценивать перспективно в других исследованиях ...

Хотя обратите внимание, что хотя это был подгрупповой анализ, он был из рандомизированного контрольного исследования, а не наблюдательного исследования, в котором проблема усугубляется. Филипп Коул презирал идею о том, что обсервационные («эпидемиологические») исследования могут генерировать гипотезы в намеренно провокационном, но занимательном комментарии:

П Коул. Машина, генерирующая гипотезу. Эпидемиология 1993; 4 : 271-273.

— универсальный
источник

+1 Спасибо за ссылку (и ретаг). Я посмотрю в этом направлении.

— ЧЛ

Я просто опускаю некоторые ссылки на данные дноуглубительных работ и клинических исследований для заинтересованного читателя Это сделано для того, чтобы расширить хороший ответ @onestop . Я старался избегать статей, сосредоточенных только на множественных сравнениях или проблемах проектирования, хотя исследования с множественными конечными точками продолжают представлять сложные и противоречивые дискуссии (спустя много времени после заявлений Ротмана о бесполезных корректировках , Эпидемиология 1990, 1: 43-46; или см. Обзор Фейза в BMC). Методология медицинских исследований 2002, 2: 8).

Насколько я понимаю, хотя я и говорил об аналитическом анализе данных , мой вопрос в более общем плане касается использования интеллектуального анализа данных с его потенциальными подводными камнями параллельно тестированию на основе гипотез.

Koh, HC and Tan, G (2005). Применение интеллектуального анализа данных в здравоохранении . Журнал Управления Информацией Здравоохранения , 19 (2), 64-72.
Иоаннидис, JPA (2005). Почему большинство опубликованных результатов исследований являются ложными . PLoS Medicine , 2 (8), e124.
Anderson, DR, Link, WA, Johnson, DH, and Burnham, KP (2001). Предложения по представлению результатов анализа данных . Журнал управления дикой природой , 65 (3), 373-378. - это повторяет комментарий @ onestop о том факте, что мы должны признать, что исследование / моделирование на основе данных выходит за рамки первоначального набора гипотез
Мишель К.Б. и Роснер Б.А. (1996). Траление данных: ловить рыбу или не ловить рыбу . Ланцет , 348, 1152-1153.
Лорд С.Дж., Гебски В.Д. и Кич А.К. (2004). Многочисленные анализы в клинических испытаниях: надежная наука или выемка данных?, Медицинский журнал Австралии , 181 (8), 452-454.
Smith, GD and Ebrahim, S (2002). Углубление данных, смещение или спутывание . BMJ , 325, 1437-1438.
Afshartous, D and Wolf, M (2007). Предотвращение «отслеживания данных» в моделях многоуровневых и смешанных эффектов . Журнал Королевского статистического общества A , 170 (4), 1035–1059
Anderson, DR, Burnham, KP, Gould, WR, и Cherry, S (2001). Опасения по поводу поиска эффектов, которые на самом деле являются ложными . Бюллетень Общества Widlife , 29 (1), 311-316.

— Чл
источник

Это просто резюме того, что я читал до сих пор. Очевидно, я не приму мой собственный ответ . Любые другие мысли будут высоко ценится.

— ЧЛ

Спасибо за то, что приняли мой ответ, хотя ваш собственный список ссылок намного лучше и свежее. Я действительно должен был думать о нескольких из них себя , как я получил их на жестком диске, и , возможно, даже читать их части ...

— OneStop