Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных вопросников (социально-демографические данные, нейропсихологические или медицинские шкалы - например, умственное или физическое функционирование, уровень депрессии / тревоги, контрольный список симптомов). ). Бывает, что EDA помогает выделить некоторые неожиданные отношения («неожиданные», означающие, что они не были включены в первоначальный план анализа), что выражается в дополнительных вопросах / гипотезах.
Как и в случае с переобучением, выемка данных или отслеживание приводят к результатам, которые не обобщаются. Однако, когда доступно много данных, довольно трудно (для исследователя или врача) постулировать ограниченный набор гипотез.
Я хотел бы знать, существуют ли общепризнанные методы, рекомендации или практические правила, которые могут помочь определить ЭДА в случае исследований с малой выборкой.