Как строго обосновать выбранные коэффициенты ложноположительных / ложноотрицательных ошибок и базовое соотношение затрат?


12

контекст

Группа социологов и статистиков ( Benjamin et al., 2017 ) недавно предположила, что типичный ложноположительный показатель ( = .05), используемый в качестве порога для определения «статистической значимости», должен быть скорректирован до более консервативного порога. ( = .005). Противоборствующая группа социологов и статистиков ( Lakens et al., 2018 ) ответила, выступая против использования этого или любого другого произвольно выбранного порога. Ниже приводится цитата из Lakens et al. (стр. 16), которая помогает проиллюстрировать предмет моего вопроса:ααα

В идеале альфа-уровень определяется путем сравнения затрат и выгод с функцией полезности с использованием теории принятия решений. Этот анализ затрат и выгод (и, следовательно, альфа-уровень) отличается при анализе больших существующих наборов данных по сравнению со сбором данных из труднодоступных выборок. Наука разнообразна, и ученые должны обосновать альфа-уровень, который они решают использовать. ... Исследования должны основываться на принципах строгой науки, а не на эвристике и произвольных общих порогах.

Вопрос

Мне интересно, как можно оправдать выбранную альфу так, чтобы «руководствоваться принципами строгой науки», как Lakens et al. предположить, в большинстве социальных наук (т.е. вне отдельных случаев, когда нужно оптимизировать конкретное качество, например, прибыль)?

После распространения Lakens et al. Я начал видеть онлайн-калькуляторы, циркулирующие, чтобы помочь исследователям принять это решение. При их использовании исследователям необходимо указывать «соотношение затрат» ложноположительных и ложноотрицательных ошибок. Однако, как этот калькулятор здесь предполагает, определение такого соотношения с точки зрения затрат может включать в себя много количественных наугад:

В то время как некоторые затраты на ошибки легко количественно определить в денежном выражении (прямые затраты), другие трудно определить в виде суммы доларов (косвенные затраты). ... Несмотря на то, что количественно оценить сложно, вы должны приложить усилия к тому, чтобы указать число.

Например, хотя Lakens et al. Предложите изучить труднодоступные образцы в качестве фактора, который можно учитывать при обосновании альфа. Кажется, что до сих пор остается гадать, насколько труднодоступен этот образец, и, следовательно, как соответствующим образом настроить выбор альфа. В качестве другого примера, мне было бы трудно количественно оценить стоимость публикации ложноположительного результата с точки зрения того, сколько времени / денег другие впоследствии потратят на проведение исследований, основанных на ошибочном выводе.

Если определение этого соотношения затрат в значительной степени зависит от субъективных предположений о лучших догадках, мне остается задуматься, могут ли эти решения когда-либо (опять же, помимо оптимизации чего-то вроде прибыли) быть «оправданными». То есть таким образом, который существует вне допущений, сделанных в отношении выборки, компромиссов, воздействия и т. Таким образом, определение соотношения затрат ложноположительных / ложноотрицательных ошибок кажется мне чем-то сродни выбору априорного в байесовском выводе - решение, которое может быть несколько субъективным, влиять на результаты и, следовательно, обсуждаться. - хотя я не уверен, что это разумное сравнение.

Резюме

Чтобы сделать мой запрос конкретным:

  1. Могут ли ложно-положительные / ложно-отрицательные показатели и их соотношение затрат когда-либо быть "строго" оправданными в большинстве социальных наук?
  2. Если да, то каковы обобщаемые принципы, которым можно следовать, чтобы оправдать этот аналитический выбор (и, возможно, пример или два из них в действии)
  3. Если нет, то разумна ли моя аналогия потенциальной субъективности при выборе соотношения затрат - как сродни байесовскому предварительному отбору?

Ссылки

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 июля). Пересмотреть статистическую значимость. Получено с сайта psyarxiv.com/mky9j

Лакенс Д., Адольфи Ф.Г., Альберс С.Дж., Анвари Ф., Эппс, М.А., ... Цваан Р.А. (2018, 15 января). Обоснуйте свою альфу. Получено с сайта psyarxiv.com/9s3y6


4
Можете ли вы определить, как вы используете «объективно оправдано»? Вероятности ошибок типа I являются предпочтением исследователя ... как и априорные вероятности ошибок типа II. Каким образом исследователь «объективно обосновал», скажем, предпочтительную программу исследований, предпочтительного сотрудника или спонсора исследования или предпочтительный подход к обучению и наставничеству научного ассистента?
Алексис

1
Объективно оправдано, как не просто предпочтение. Бумага Лакенса и др. В настоящее время распространяется под сокращенным названием «JYA» («Обоснуйте свою альфу»), и я прочитал их аргумент, основанный на приведенных выше цитатах, что никакие старые предпочтения не подойдут. Чтобы быть ясным: я не обязательно приводить аргумент, что можно объективно оправдать выбранную частоту ошибок типа I / II. Скорее, мой запрос основан на интерпретации Lakens et al. предположить, что вы можете, и если это так, то я не понимаю, как это можно сделать.
jsakaluk

3
Я не вижу слова «объективно» в этой цитате из Lakens et al. Они действительно используют это в своей газете? Если это так, может быть, вы могли бы добавить еще одну цитату, чтобы обеспечить более конкретный контекст? Если нет, то я не уверен, что вы можете сказать что-то вроде «объективного оправдания выбранной альфы, как предлагают Лакенс и др.».
говорит амеба, восстанови Монику

2
Я обновил пост, который теперь лишен "объективности". У меня не было намерения исказить аргумент, но я могу понять, считали ли читатели, что я написал небрежно. Лакенс и соавт. ли использовать дескриптор « руководствуясь принципами научной строгости», поэтому мой вопрос теперь на прочном основе. Однако мне все еще интересно, что это может значить; как догадки кажутся необходимыми более строгими, чем эвристические? Если это имеет значение, мне особенно любопытно, как научный реалист достиг бы стандарта «научно строгого» оправдания для альфы.
jsakaluk

2
Опять же, это не мой термин, и часть моего вопроса направлена ​​на получение ответов, которые могут помочь мне понять, что этот термин может означать - я прошу примерные обобщенные принципы - в рамках ограничений, которые, по словам Лакенс и др., Не среднее (т.е. не эвристический; не произвольный порог). Если вы имеете в виду несколько определений «научно обоснованного обоснования», которые могут генерировать разные ы и которые соответствуют неэвристическим / неаприоритетным ограничениям, я бы приветствовал их прочитать. α
jsakaluk

Ответы:


1

(также опубликовано в твиттере, но переиздано здесь) Моя попытка ответа: я не думаю, что обоснование может быть «чисто» объективным, но оно может основываться на критериях, которые можно оправдать рациональными / эмпирическими соображениями. Я думаю, что RSS - это пример того, как вы могли бы обосновать p <.005 для определенных типов исследований, но я также думаю, что есть другие обстоятельства, когда другая альфа была бы более оптимальной, чем <.005 (либо выше, либо ниже), в зависимости от какая альфа выполнима и какова цель исследования. Так, например, если у вас 5000 участников, а наименьший интересующий вас размер эффекта равен .10, вы можете использовать p <.001 и иметь мощность 90% (все числа составлены). Напротив, скажем, вы проводите небольшой эксперимент в качестве первоначального «доказательства концепции» для направления исследований. Вы можете иметь N = 100, р <.10, 90% мощности,


1

В последнее время я много думал об одном и том же вопросе, и я думаю, что многие другие в психологии тоже.

Прежде всего, каждый из ваших вопросов относится к тому, сделан ли выбор объективно, а не субъективно, но (как отметили другие здесь) вы не полностью объяснили, что будет (на ваш взгляд) представлять собой объективный, а не субъективный выбор.

Возможно, вас заинтересует статья « Gelman & Hennig 2015», в которой раскрываются различные ценности, заключенные в обычном использовании «объективных» и «субъективных» ярлыков в науке. В их формулировке «цель» относится к ценностям прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности, тогда как «субъективная» относится к ценностям множественных точек зрения и зависимости от контекста.

Относительно вашего Вопроса 3, с точки зрения Байеса, вероятность определяется как количественная неопределенность мира. Из того, что я понимаю, существует очевидная напряженность между «субъективистскими байесовскими» (вероятности отражают отдельные состояния убеждений) и «объективистскими байесовскими» школами мысли (вероятности отражают консенсусную правдоподобность). В объективистской школе более сильный акцент делается на обосновании предшествующего распределения (и модели в целом) прозрачным способом, который согласуется с консенсусом и который можно проверить, но выбор модели, безусловно, зависит от контекста (т.е. , зависит от консенсусного состояния знаний по конкретной проблеме).

В частой концепции вероятности отражают число случаев, когда событие произойдет при бесконечных независимых повторениях. В рамках Неймана-Пирсона каждый устанавливает точную альтернативную гипотезу и точную альфу, принимает точный ноль или точную альтернативу (что эффект популяции точно равен указанному) на основе данных, а затем сообщает долгосрочная частота делает это по ошибке.

В этих рамках у нас редко бывает точная точечная оценка величины эффекта населения, а скорее диапазон вероятных значений. Следовательно, при условии наличия определенной альфа-версии мы не имеем точной оценки частоты ошибок типа 2, а имеем диапазон вероятных ошибок типа 2. Точно так же, я бы согласился с вашей общей точкой зрения, что у нас обычно нет точного понимания того, каковы будут затраты и выгоды от ошибки типа 1 или ошибки типа 2. Это означает, что мы часто сталкиваемся с ситуацией, когда у нас есть очень неполная информация о том, какой должна быть наша гипотеза, и даже меньше информации о том, каковы будут относительные издержки и выгоды принятия против отклонения этой гипотезы.

на ваши вопросы:

  1. Могут ли ложноположительные / ложноотрицательные показатели и их соотношение затрат когда-либо быть объективно оправданными в большинстве социальных наук?

Я думаю, что оправдание может быть прозрачным, согласовываться с консенсусом, быть беспристрастным и соответствовать реальности (в той степени, в которой мы используем наилучшую доступную информацию о затратах и ​​выгодах).

Тем не менее, я думаю, что такие обоснования также субъективны в том смысле, что может быть несколько обоснованных точек зрения относительно того, как установить альфа для данной проблемы, и в том, что составляет соответствующую альфа, может быть значимо контекстно-зависимым.

Например, в последние годы стало ясно, что многие эффекты в литературе отражают ошибки типа M или типа S. Они также могут отражать ошибки типа 1 в той степени, в которой исследование репликации может предоставить доказательства нулевого эффекта с нулевым эффектом.

В связи с этим наблюдением складывается консенсус в отношении того, что пороговое значение р-значения для утверждения с уверенностью должно быть неизменным или более строгим (т. Е. Никто не спорит о полном увеличении альфа до .10 или .20) , Аналогичным образом, складывается консенсус в отношении того, что значения p не следует использовать в качестве критерия для публикации (например, формат зарегистрированного отчета).

Для меня это отражает своего рода «объективный» источник информации - то есть, на мой взгляд, растет понимание того, что ложные заявления являются дорогостоящими для области (даже если мы не можем поставить сумму в долларах на эти расходы). Насколько я понимаю, нет четкого консенсуса в отношении того, что неспособность достичь порогового значения р является значительным расходом для этой области. Если есть затраты, они могут быть смягчены, если несоблюдение порогового значения p не влияет на то, превратится ли оценка в опубликованный документ.

  1. Если да, то каковы обобщаемые принципы, которым можно следовать, чтобы оправдать этот аналитический выбор (и, возможно, пример или два из них в действии)

Я не уверен, но я бы склонялся к какому-то принципу, согласно которому решения должны приниматься на основе прозрачных (локальных или глобальных) консенсусных суждений относительно затрат и выгод различных видов аналитического выбора в конкретном контексте, даже в перед лицом крайне неполной информации о том, какими могут быть эти затраты и выгоды.

  1. Если нет, то разумна ли моя аналогия потенциальной субъективности при выборе соотношения затрат - как сродни байесовскому предварительному отбору?

Да, во всех распространенных и байесовских традициях есть место для субъективности (то есть множественных точек зрения и зависимости от контекста), а также объективности (то есть прозрачности, консенсуса, беспристрастности и соответствия наблюдаемой реальности) во многих различных аспектах статистической модели. и как эта модель используется (выбранный ранее, выбранная вероятность, выбранный порог принятия решения и т. д.).


Это хороший ответ. Одна вещь, в которой я не так уверен, это требование переписки. Если мы понимаем этот термин одинаково (я думаю с точки зрения теории соответствия истины), то на самом деле это звучит так, как будто переписка может быть шаткой, если у нас нет точного представления о стоимости Типа. I / II ошибки. Вместо этого, звучит так, как будто бы лучше претендовать на согласованность (учитывая эти первоначальные предположения, остальные числа «имеют смысл») или прагматизм (наше предположение о стоимости ошибок типа I / II является полезной фикцией для планирования исследования).
jsakaluk

Возможно, я слишком стараюсь сочетать «оправдание» с перепиской / реалистической перспективой, и в этих других способах понимания частоту появления ошибок типа I / II можно выбирать так, чтобы это было «оправдано»?
jsakaluk

Спасибо, что указали мне на эти идеи. Я бы сказал, что в любом конкретном контексте у нас может быть хорошая информация о том, какие будущие затраты и выгоды могут быть, или у нас может быть очень плохая информация. В очень грубом смысле растет согласие с тем, что ложные срабатывания (р <порог, истинный эффект точно равен нулю) могут быть более вредными для поля, чем случаи несоблюдения порога значимости (но в любом случае публикация оценки). В определенных местных условиях могут быть более серьезные расходы, связанные с несоблюдением порога значимости.
закваска

Тангенциально, понятия «альфа» и «ошибка типа 2» существуют только в структуре НП, где аналитик указал две точные гипотезы и обязуется принять одну или другую в конце процедуры. Однако в обычной практике аналитиков часто предупреждают, что они не должны принимать ноль на основе незначительной оценки с неопределенной силой, по существу возвращаясь к интерпретации в стиле Фишера, где нет принятия ноля и нет «ошибки типа 2».
закваска

1
Мне забавно, что социальные сети, социальные классы и социальные взаимодействия, лежащие в основе вашего описания «консенсуса», каким-то образом отделены от субъективных убеждений и ценностей, которые лежат в основе их всех.
Алексис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.