В частом заключении мы хотим определить, как часто что-то происходило бы, если бы данный случайный процесс неоднократно реализовывался. Это отправная точка для теории p-значений, доверительных интервалов и тому подобного. Однако во многих прикладных проектах «заданный» процесс на самом деле не дается, и статистику необходимо выполнить хотя бы некоторую работу по его определению и моделированию. Это может быть удивительно неоднозначной проблемой, как и в этом случае.
Моделирование процесса генерации данных
На основании предоставленной информации наш лучший кандидат выглядит следующим образом:
- Если счетчик 100 В показывает 100 В, инженер повторно измеряет счетчик 1000 В, если он работает. В противном случае он просто отмечает 100V и движется дальше.
Но не немного ли это несправедливо по отношению к нашему инженеру? Предполагая, что он инженер, а не просто техник, он, вероятно, понимает, почему ему необходимо провести повторные измерения, когда первый счетчик показывает 100 В; это потому, что измеритель насыщен на верхнем пределе своего диапазона, следовательно, больше не надежен. Так что, возможно, что инженер на самом деле сделает
- Если счетчик 100 В показывает 100, инженер повторно измеряет счетчик 1000 В, если он работает. В противном случае он просто отмечает 100 В, добавляет знак плюс, чтобы указать насыщенное измерение, и продолжает.
Оба эти процесса соответствуют имеющимся у нас данным, но это разные процессы, и они дают разные доверительные интервалы. Процесс 2 - это тот, который мы предпочли бы как статистики. Если напряжения часто намного выше 100 В, то в Процессе 1 имеется режим потенциально катастрофического отказа, в котором измерения иногда сильно занижаются, поскольку данные подвергаются цензуре без нашего ведома. Доверительный интервал будет соответственно расширяться. Мы могли бы смягчить это, попросив инженера сообщить нам, когда его измеритель 1000 В не работает, но на самом деле это просто еще один способ убедиться, что наши данные соответствуют процессу 2.
Если лошадь уже вышла из сарая, и мы не можем определить, когда измерения проводятся и не подвергаются цензуре, мы можем попытаться вывести из данных время, когда измеритель 1000 В не работает. Вводя правило вывода в процесс, мы эффективно создаем новый Процесс 1.5, отличный от 1 и 2. Наше правило вывода иногда работает, а иногда нет, поэтому доверительный интервал из Процесса 1.5 будет промежуточным по размеру по сравнению с Процессами 1 и 2.
Теоретически, нет ничего плохого или подозрительного в том, что одна статистика имеет три различных доверительных интервала, связанных с тремя различными правдоподобными случайными процессами. На практике немногие потребители статистики хотят три разных доверительных интервала. Им нужен тот, который основан на том, что на самом деле произошло бы, если бы эксперимент повторился много раз. Поэтому, как правило, прикладной статистик учитывает знания предметной области, которые он приобрел в ходе проекта, делает обоснованное предположение и представляет доверительный интервал, связанный с процессом, который он угадал. Или она работает с заказчиком, чтобы формализовать процесс, поэтому нет необходимости догадываться, что делать дальше.
Как реагировать на новую информацию
Несмотря на настойчивость статистика в этой истории, вывод по частоте не требует от нас повторения измерений, когда мы получаем новую информацию, предполагающую, что генерирующий случайный процесс не совсем то, что мы изначально задумывали. Однако, если процесс будет повторяться, нам нужно убедиться, что все повторы соответствуют модельному процессу, предполагаемому доверительным интервалом. Мы можем сделать это, изменив процесс или изменив нашу модель.
Если мы изменим процесс, нам, возможно, придется отказаться от прошлых данных, которые были собраны несовместимо с этим процессом. Но это не проблема, потому что все варианты процесса, которые мы рассматриваем, отличаются только тогда, когда некоторые данные превышают 100 В, и в этом случае этого никогда не происходило.
Что бы мы ни делали, модель и реальность должны быть приведены в соответствие. Только тогда теоретически гарантированный уровень частых ошибок станет тем, что клиент фактически получит при повторном выполнении процесса.
Байесовская альтернатива
С другой стороны, если все, что нас действительно волнует, - это вероятный диапазон истинного среднего значения для этой выборки, мы должны полностью отбросить частоту и искать людей, которые продают ответ на этот вопрос - байесовцев. Если мы пойдем по этому пути, все торги из-за контрафактов станут неактуальными; все, что имеет значение, является приоритетом и вероятностью. В обмен на это упрощение мы теряем всякую надежду гарантировать частоту ошибок при повторном выполнении «эксперимента».
Почему суета?
Эта история была построена так, чтобы она выглядела как частый статист, суетящийся над глупыми вещами без причины. Честно говоря, кого волнуют эти глупые контрафакты? Ответ, конечно, заключается в том, что все должны заботиться. Жизненно важные научные области в настоящее время страдают от серьезного кризиса репликации , который предполагает, что частота ложных открытий намного выше, чем ожидалось в научной литературе. Одной из движущих сил этого кризиса, хотя и не единственной в любом случае , является рост р-хакерства , когда исследователи играют со многими вариациями модели, контролируя различные переменные, пока они не приобретут значимость.
P-хакерство широко пропагандируется в научно-популярных СМИ и блогосфере, но мало кто на самом деле понимает, что не так с P-хакерством и почему. Вопреки распространенному статистическому мнению, нет ничего плохого в просмотре ваших данных до, во время и после процесса моделирования. Что не так, так это то, что не сообщается о предварительном анализе и как они повлияли на ход исследования. Только взглянув на весь процесс, мы даже сможем определить, какая стохастическая модель является репрезентативной для этого процесса и какой анализ частоты подходит для этой модели, если таковой имеется.
Утверждение, что определенный частый анализ уместен, является очень серьезным требованием. Это утверждение подразумевает, что вы привязываете себя к дисциплине стохастического процесса, который вы выбрали, что влечет за собой целую систему контрфактов о том, что вы бы сделали в разных ситуациях. Вы должны на самом деле соответствовать этой системе, чтобы гарантия частого обращения распространялась на вас. Очень немногие исследователи, особенно те, кто работает в областях, где особое внимание уделяется открытым исследованиям, соответствуют этой системе, и они не сообщают о своих отклонениях скрупулезно; вот почему у нас сейчас кризис репликации в наших руках. (Некоторые уважаемые исследователи утверждают, что это ожидание нереально, и я сочувствую этой позиции, но это выходит за рамки данной статьи.)
Может показаться несправедливым, что мы критикуем опубликованные статьи на основании заявления о том, что они сделали бы, если бы данные были другими. Но это (несколько парадоксальная) природа рассуждений, основанных на частоте: если вы принимаете концепцию p-значения, вы должны уважать законность моделирования того, что было бы сделано при альтернативных данных. (Gelman & Loken, 2013)
В исследованиях, которые относительно просты и / или стандартизированы, таких как клинические испытания, мы можем приспособиться к таким вещам, как множественные или последовательные сравнения, и поддерживать теоретическую частоту ошибок; в более сложных и предварительных исследованиях модель, основанная на частоте, может быть неприменима, поскольку исследователь может не полностью осознавать все принимаемые решения , не говоря уже о регистрации и явном их представлении. В таких случаях исследователь должен (1) быть честным и искренним в отношении того, что было сделано; (2) представить p-значения либо с сильными оговорками, либо вовсе не с ними; (3) рассмотреть возможность представления других доказательств, таких как предварительная достоверность гипотезы или последующее исследование репликации.