Необязательные правила остановки не в учебниках

Правила остановки влияют на связь между P-значениями и частотой ошибок, связанных с решениями. Недавняя статья Simmons et al. В 2011 году термин « степени свободы исследователей» обозначает группу поведений, которые, по их мнению, являются ответственными за многие сообщения в литературе по психологии, которые были признаны не воспроизводимыми.

Из этого поведения меня интересуют дополнительные правила остановки или необъявленные промежуточные анализы. Я описываю их влияние на уровень ошибок для моих учеников, но они, кажется, не описаны в учебниках, которые используют мои ученики (или не использовать!). В главном книжном магазине моего университета есть четырнадцать учебников по статистике, предназначенных для студентов начального уровня по различным дисциплинам, таким как биологические науки, бизнес, инженерия и т. Д. Только один из этих текстов содержал предметный указатель «последовательное тестирование», и ни один не содержал предметный указатель « правило остановки ».

Существует ли вводный учебник по статистике уровня, объясняющий проблему необязательных правил остановки?

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное . Психологическая наука, 22 (11), 1359–1366. DOI: 10,1177 / 0956797611417632

references type-i-and-ii-errors optimal-stopping

— Майкл Лью - восстановить Монику
источник

Разве проблема не исчезнет, если вы выберете частую статистику и будете использовать IT или байесовские методы? (Или даже чисто машинное обучение, в зависимости от размера вашего набора данных) Это не легкомысленно - несовместимое сочетание Fisher и NP не вызывает ничего, кроме проблем, даже если все сделано «правильно». В будущем больше не будет частых людей.

— Thedude

Да, проблема исчезла бы, если бы не было методов, которые должны соответствовать частотному принципу. Тем не менее, такое будущее не может прийти в этом мире. Что это?

— Майкл Лью - восстановить Монику

@Michael: Почти несомненно это (то есть, IT) расшифровывается как «теоретическая информация».

— кардинал

По смежной теме: errorstatistics.com/2013/04/06/…

— о.

@ Теория, использующая другую теоретическую основу, порождает другие проблемы . Проблема в том, что вы все относитесь к математике как к чему-то другому, а не просто к описанию мира. Статистика по частоте - это один из очень полезных способов описания мира, а байесовский - по другому. Ни один из них не предоставит вам Оракула Истины .

— помещении

Ответы:

У вас не может быть правила остановки без некоторого представления о вашем распределении и размере эффекта - чего вы априори не знаете.

Также да, нам нужно сосредоточиться на величине эффекта - и никогда не считалось правильным рассматривать только p-значения, и мы, конечно, не должны показывать таблицы или графики, которые показывают p-значения или F-значения, а не размер эффекта.

Существуют проблемы с традиционным тестом статистического вывода гипотез (который, по словам Коэна, достоин своей аббревиатуры, и Фишер и Пирсон оба перевернулись бы в могилах, если бы увидели все, что делается сегодня под их жестко противоположными именами).

Чтобы определить N, вам необходимо уже определить целевую значимость и порог мощности, а также сделать много предположений о распределении, и, в частности, вам также необходимо определить величину эффекта, который вы хотите установить. Абсолютно верно, что это должно быть отправной точкой - какой минимальный размер эффекта будет экономически эффективным!

«Новая статистика» рекомендует показывать размеры эффекта (как парное различие, где это уместно), а также связанные стандартные отклонения или дисперсию (потому что нам нужно понять распределение), а также стандартные отклонения или доверительные интервалы (но последнее уже фиксация значения p и принятие решения о том, предсказываете ли вы направление или ставку в одну сторону). Но установление минимального эффекта для указанного знака с помощью научного прогноза проясняет это, хотя преднаучным значением по умолчанию является метод проб и ошибок и просто поиск различий. Но опять же вы сделали предположения о нормальности, если вы пойдете этим путем.

Другой подход заключается в использовании блочных графиков в качестве непараметрического подхода, но условные обозначения усов и выбросов сильно различаются и даже тогда сами по себе берут начало в предположениях распределения.

Проблема остановки действительно не является проблемой отдельного исследователя, устанавливающего или не устанавливающего N, но в том, что у нас есть целое сообщество тысяч исследователей, где 1000 намного больше, чем 1 / альфа для традиционного уровня 0,05. В настоящее время предлагается предложить предоставить сводную статистику (среднее значение, stddev, stderr - или соответствующие «непараметрические версии - медиана и т. Д., Как в случае с коробчатым графиком) для облегчения мета-анализа и представления объединенных результатов всех экспериментов, независимо от того, происходят ли они». достиг определенного уровня альфа или нет.

Тесно связана проблема множественного тестирования, которая так же чревата трудностями, и где эксперименты носят слишком упрощенный характер во имя сохранения мощности, в то время как для анализа результатов предлагаются сверхсложные методологии.

Я не думаю, что может быть глава учебника, имеющая дело с этим окончательно еще, поскольку у нас все еще есть небольшое представление о том, что мы делаем ...

На данный момент лучший подход, вероятно, заключается в том, чтобы продолжать использовать традиционную статистику, наиболее подходящую для проблемы, в сочетании с отображением сводной статистики - эффект и стандартная ошибка, а N является наиболее важным. Использование доверительных интервалов в основном эквивалентно соответствующему T-критерию, но позволяет более осмысленно сравнивать новые результаты с опубликованными, а также позволяет создать идеал, способствующий воспроизводимости, и опубликовать воспроизведенные эксперименты и мета-анализы.

С точки зрения теоретико-информационного или байесовского подходов, они используют разные инструменты и делают разные предположения, но по-прежнему не имеют ответов на все вопросы, и, в конце концов, сталкиваются с одинаковыми или худшими проблемами, потому что байесовский вывод отступает от окончательного решения ответить и просто приводит доказательства относительно предполагаемых или отсутствующих приоры.

В конце концов, у машинного обучения также есть результаты, которые нужно учитывать для значимости - часто с КИ или Т-тестом, часто с графиками, которые, скорее всего, соединяют, а не просто сравнивают, и используют версии с соответствующей компенсацией, когда распределения не совпадают. Он также имеет свои противоречия по поводу начальной загрузки и перекрестной проверки, а также смещения и дисперсии. Хуже всего то, что у него есть склонность генерировать и тестировать множество альтернативных моделей, просто путем тщательной параметризации всех алгоритмов в одном из множества наборов инструментов, примененных к наборам данных, тщательно заархивированным для проведения необузданного многократного тестирования. Хуже всего то, что он все еще находится в темных веках, используя точность, или, что еще хуже, F-меру для оценки, а не методы, исправляющие случайность.

Я прочитал десятки статей по этим вопросам, но не смог найти ничего полностью убедительного - за исключением статей с отрицательным опросом или мета-анализом, которые, кажется, указывают на то, что большинство исследователей не обрабатывают и не интерпретируют статистику должным образом в отношении какого-либо «стандарта». "старый или новый. Мощность, многократное тестирование, определение размера и ранняя остановка, интерпретация стандартных ошибок и доверительных интервалов ... это лишь некоторые из проблем.

Пожалуйста, застрелите меня - я хотел бы оказаться неправым! На мой взгляд, там много воды, но мы еще не нашли ребенка! На этом этапе ни один из экстремальных взглядов или подходов имени бренда не выглядит многообещающим как ответ, и те, кто хочет выбросить все остальное, вероятно, потеряли ребенка.

— Дэвид М.В. Пауэрс
источник

Дело не в том, чтобы застрелить вас, я не думаю, что может быть решение этих проблем. Мы люди, признающие закономерности в мире, мы должны согласиться с конвергентной действительностью. После его неудачной попытки доказать, что Бог существует, Декарт склонился к сходящейся действительности. Иногда это есть, иногда нет, но мы в основном сталкиваемся с бесконечно малыми способностями когнитивных вычислений.

— помещении

Я не верю, что необязательные «правила остановки» - это технический термин в отношении оптимальной остановки. Тем не менее, я сомневаюсь, что вы найдете много углубленного обсуждения этой темы в учебниках по психологии статистики начального уровня.

Циничное обоснование этого заключается в том, что все студенты, изучающие общественные науки, имеют слабые математические навыки. Лучший ответ, ИМХО, заключается в том, что простые t-тесты не подходят для большинства социальных научных экспериментов. Нужно посмотреть на силу эффекта и выяснить, разрешает ли это различия между группами. Первый может указывать, что последний возможно, но это все, что он может сделать.

Меры расходов на социальное обеспечение, государственное регулирование и урбанизация имеют статистически значимые связи с мерами религиозного поведения. Тем не менее, просто заявив, что значение p создает тест в причинно-следственной связи "все или ничего". Смотрите следующее:

введите описание изображения здесь

Результаты как расходов на социальное обеспечение, так и урбанизации имеют статистически значимые p-значения, но расходы на социальное обеспечение гораздо более сильно коррелируют. Эти расходы на социальное обеспечение демонстрируют такую тесную связь с другими мерами религиозности ( нерелигиозный уровень, а также комфорт в религии ), для которых урбанизация даже не достигает p-значения < .10, предполагая, что урбанизация не влияет на общие религиозные убеждения. Обратите внимание, однако, что даже расходы на социальное обеспечение не объясняют Ирландию или Филиппины, показывая, что некоторые другие эффекты сравнительно сильнее, чем эффект от расходов на социальное обеспечение .

Опора на «правила остановки» может привести к ложным срабатываниям, особенно при небольших размерах психологии. Психология как область действительно сдерживается подобными статистическими махинациями. Однако помещать всю нашу веру в произвольное значение p также довольно глупо. Даже если бы мы все отправили наши размеры выборки и заявления о гипотезах в журнал до проведения эксперимента, мы все равно столкнулись бы с ложными срабатываниями, поскольку научные круги коллективно контролируют статистическую значимость.

Правильно не делать остановку интеллектуального анализа данных, а правильно описывать результаты в зависимости от их влияния . Теории оцениваются не только по точности их предсказаний, но и по полезности этих предсказаний. Независимо от того, насколько хороша методология исследования, препарат, который обеспечивает улучшение симптомов простуды на 1%, не стоит затрат на упаковку в капсулу.

Обновление. Чтобы быть ясным, я полностью согласен с тем, что социологи должны придерживаться более высоких стандартов: нам нужно улучшить образование, предоставить социологам лучшие инструменты и повысить уровень значимости до 3-сигма. Я пытаюсь подчеркнуть недопредставленный пункт: подавляющее большинство психологических исследований бесполезны, потому что величина эффекта очень мала.

Но с Amazon Turk я могу надлежащим образом компенсировать проведение 10 исследований на предмет parralel и поддерживать уровень достоверности> 3-сигма очень дешево. Но если сила эффекта невелика, то существуют значительные угрозы для внешней валидности. Эффект от манипуляций может быть связан с новостями, с порядком вопросов или с ....

У меня нет времени на эссе, но проблемы качества в социальных науках выходят далеко за пределы дерьмовых статистических методов.

— Indolering
источник

Я понимаю, что здесь есть некоторая связь социологических (обычно не экспериментальных) исследований и клинических испытаний. Однако ваше первое предложение не имеет смысла: правила остановки - огромная область исследований в клинических испытаниях. Основанием для этого является то, что несколько взаимосвязанных гипотез, проверенных последовательно, являются частью заранее заданного плана анализа. Ссылка в вопросе OP, однако, это не проблема плохой математики, это проблема плохой науки. Проведение нескольких статистических тестов, чтобы «почувствовать» правильный анализ и остановка, когда кто-то находит значение, является плохой наукой, независимо от того, как вы ее оцениваете.

— AdamO

@AdamO Я согласен! Когда я писал это, я был старшекурсником, пытавшимся использовать методы интеллектуального анализа данных, и когда я пошел, чтобы убедиться, что я все делал правильно (что я и делал), первоначальные реакции, которые я получил от профессоров и статистиков, были ... наивными. По иронии судьбы, стандартная процедура для лабораторий социальных наук - проводить экспериментальные исследования, пока они не найдут что-то интересное. Я делал то же самое, но на самом деле пытался это компенсировать: p

— Indolering

В цитируемой вами статье ничего не говорится о правилах остановки и, похоже, она мало связана с рассматриваемой проблемой. Их единственное, очень слабое отношение - это множественное тестирование, которое является статистическим , а не научным понятием.

В литературе о клинических испытаниях вы обнаружите, что правила остановки сделаны строгими с явной информацией об условиях, в которых «будет выглядеть» исследование: на основе календарного года или числа человеко-лет, установки альфа-уровня и также ограничения на эффекты для «эффективного» против «вредного» лечения. Действительно, мы должны смотреть на строгое проведение таких исследований в качестве примера хорошо выполненной науки . FDA даже пойдет так далеко, что скажет, что после значительного открытия эффективности, отличной от той, которая была указана заранее, должно быть проведено второе испытание для подтверждения этих результатов. Это остается проблемой настолько, что Томас Флемминг рекомендует, чтобы все клинические исследования валидацию с помощью совершенно независимого второго подтверждающего испытания, проводится отдельными лицами. Так плохо проблема ложноположительных ошибок при рассмотрении жизни и медицинской помощи.

С по-видимому безобидным упущением другие области науки сохранили плохую этику в исследованиях. Действительно, социальные науки не влияют на методы лечения, которые люди получают, они имеют дело с рефератами и концептуальными моделями, которые только улучшают наше понимание взаимодействия теории и наблюдения. Однако любой потребитель социальных наук, будь то ученый или ученый, часто сталкивается с противоречивыми выводами: шоколад полезен для вас, шоколад вреден для вас (кстати, шоколад полезен для вас, сахар и жир)в шоколаде это плохо для тебя), секс для тебя хорошо, брак делает тебя грустным / брак делает тебя счастливым. Сфера полна плохой науки. Даже я виновен в работе над анализами, где я был недоволен решительным языком, который затем был привязан к сильным рекомендациям относительно политики и федеральной поддержки, совершенно неоправдан, и все же он был опубликован.

Статья Симмонса эффективно описывает, как раскрытие могло бы помочь в явном указании видов «ярлыков», которые делают исследователи в социальных исследованиях. Симмонс приводит в Таблице 1 пример того, как выемка данных резко увеличивает частоту ложноположительных ошибок способом, типичным для неэтичного ученого, «ищущего результаты». Краткое изложение результатов в Таблице 2 описывает часто пропускаемые аспекты статей, которые могут значительно улучшить понимание того, как, возможно, было проведено более одного анализа.

Подводя итог, можно сказать, что правила остановки были бы уместны только с заранее определенной гипотезой: они являются этически обоснованными и требуют статистических методов. В статье Симмонса признается, что многие исследования даже не подтверждают это, и это этически несостоятельно, но статистический язык убедителен, почему именно это неправильно.

— Adamo
источник

Я не понимаю, почему вы бы сказали, что цитируемая статья имеет мало отношения к рассматриваемой проблеме. Он содержит раздел заголовков под названием «Более внимательный взгляд на гибкость в размере выборки», который посвящен необязательному прекращению. Посмотри еще раз.

— Майкл Лью - восстановите Монику

@MichaelLew, чтобы суммировать ответ: правила остановки связаны с клиническими испытаниями, набором и последующим наблюдением, но проверка единственной заранее определенной гипотезы - это приемлемая практика в исследованиях устройств FDA и терапевтических агентов. В статье Симмонса рассматриваются этика, критерии исследования и p-хакерство в исследованиях и исследованиях в области социальной медицины. Можете ли вы описать более точно, как вы видите отношение? Возможно, вы можете отредактировать свой пост, чтобы определить термины и предоставить ссылки на другую литературу, в частности, касающуюся «правил остановки», которых AFAIK не существует вне клинических испытаний.

— AdamO

Я также не думаю, что ваша характеристика «другие области науки увековечили плохую этику в исследованиях» является справедливой или полезной. Суть моего первоначального вопроса заключается в том, что, похоже, нет причин, по которым пользователи, занятые неполный рабочий день, могли бы знать о потенциальных проблемах, возникающих в результате незаявленного промежуточного анализа. Несправедливо называть невежество неэтичным.

— Майкл Лью - восстановите Монику

@MichaelLew, что вы определяете как «промежуточный анализ»?

— AdamO

Адам, я не думаю, что вы правы, говоря, что «правила остановки не существуют вне клинических испытаний». Они могут не часто упоминаться вне клинических испытаний (см. Мой оригинальный вопрос), но они существуют для каждого эксперимента. Даже в испытании с фиксированным размером выборки действует правило остановки «продолжать до достижения размера выборки».

— Майкл Лью - восстановите Монику