Я читал эту статью в Природе, в которой некоторые ошибки объясняются в контексте анализа данных. Я заметил, что ошибки техасского снайпера было особенно трудно избежать:
Когнитивная ловушка, которая ожидает во время анализа данных, проиллюстрирована басней о техасском снайпере: неумелый меткий стрелок, который стреляет случайным образом из пуль сбоку сарая, рисует цель вокруг самого большого скопления пулевых отверстий и гордо указывает на его успех.
Его яблочко явно смешно - но заблуждение не столь очевидно для игроков, которые верят в «горячую руку», когда у них есть серия побед, или для людей, которые видят сверхъестественное значение, когда розыгрыш лотереи выпадает из всех нечетных чисел.
И это не всегда очевидно для исследователей. «Вы просто получаете некоторую поддержку от данных, а затем думаете, что это путь, по которому надо идти», - говорит Пашлер. «Вы не понимаете, что у вас было 27 различных вариантов, и вы выбрали тот, который дал вам наиболее приятные или интересные результаты, и теперь вы занимаетесь чем-то, что вовсе не беспристрастное представление данных. »
Я думаю, что такие разведочные работы являются обычным явлением, и часто на основе этой части анализа строятся гипотезы. Существует целый подход ( EDA ), посвященный этому процессу:
Джон Тьюки продвигал исследовательский анализ данных, чтобы побудить статистиков исследовать данные и, возможно, сформулировать гипотезы, которые могли бы привести к сбору новых данных и экспериментам
Похоже, что любой исследовательский процесс, выполняемый без предварительной гипотезы, склонен генерировать ложные гипотезы.
Обратите внимание, что описание EDA выше на самом деле говорит о new data collection and experiments
. Я понимаю, что после сбора новых данных целесообразно провести подтверждающий анализ данных (CDA). Тем не менее, я не думаю, что это различие проводится очень четко, и хотя разделение EDA и CDA было бы идеальным, безусловно, есть некоторые обстоятельства, в которых это невозможно. Я бы даже сказал, что строго придерживаться этого разделения редко, и большинство практиков вообще не поддерживают парадигму EDA.
Итак, мой вопрос: делает ли EDA (или какой-либо неформальный процесс изучения данных) вероятность того, что он попадет в заблуждение стрелка из Техаса?