Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?

98

Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс: $p$

Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»? Учтите, что в мире насчитывается 23887 университетов. Если в каждом университете 1000 студентов, это 23 миллиона студентов в год.

Предположим, что каждый год каждый студент проводит хотя бы одно исследование, используя тестирование гипотез с . $\alpha=0.05$

Не значит ли это, что даже если все исследовательские образцы были взяты из случайной популяции, около 5% из них «отклонили бы нулевую гипотезу как недействительную». Ух ты. Подумай об этом. Это около миллиона научных работ в год, публикуемых из-за «значительных» результатов.

Если это так, то это страшно. Это означает, что большая часть «научной истины», которую мы считаем само собой разумеющимся, основана на чистой случайности.

Простой кусок кода R, кажется, поддерживает мое понимание:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Так же в этой статье об успешном -fishing: Я Дурачить миллионы в Думая шоколад способствует потере веса. Вот как . $p$

Это действительно все, что нужно? Так ли должна работать наука?

hypothesis-testing statistical-significance p-value

— n_mu_sigma
источник

31

Истинная проблема потенциально намного хуже, чем умножение числа истинных нулей на уровень значимости, из-за давления, чтобы найти значение (если важный журнал не публикует незначительные результаты, или рефери отклонит статью, которая не получить существенные результаты, есть давление, чтобы найти способ достичь значимости ... и мы видим экспедиции «охота за значительностью» во многих вопросах здесь); это может привести к истинным уровням значимости, которые намного выше, чем кажутся.

— Glen_b

5

С другой стороны, многие нулевые гипотезы являются точечными нулями, и они очень редко бывают верными.

— Glen_b

37

Пожалуйста, не связывайте научный метод с p-значениями. Среди прочего наука настаивает на воспроизводимости . Именно так могли быть опубликованы статьи, скажем, о холодном синтезе (в 1989 году), но холодный синтез не существовал в качестве надежной научной теории в течение последней четверти века. Отметим также, что немногие ученые заинтересованы работать в областях, где соответствующая нулевая гипотеза действительно верна . Таким образом, ваша гипотеза о том, что «все исследовательские образцы были взяты из случайной популяции», не отражает ничего реалистичного.

— whuber

13

Обязательная ссылка на мультфильм желейных бобов xkcd . Краткий ответ - это, к сожалению, происходит слишком часто, и некоторые журналы в настоящее время настаивают на том, чтобы статистик просматривал каждую публикацию, чтобы уменьшить количество «значительных» исследований, которые попадают в общественное достояние. Много соответствующих ответов и комментариев в этой предыдущей дискуссии

— Флорис

8

Возможно, я не получаю жалобу ... "Мы успешно опровергли 95% поддельных гипотез. Оставшиеся 5% было не так легко победить из-за случайных колебаний, которые выглядели как значимые эффекты. Мы должны рассмотреть их более внимательно и игнорировать другие 95%. " Это звучит так же, как правильное поведение для чего-то вроде «науки».

— Эрик Тауэрс,

70

Это, безусловно, серьезная проблема, но это не совсем верно.

Если проведено 1 000 000 исследований и все нулевые гипотезы верны, то приблизительно 50 000 будут иметь значительные результаты при р <0,05. Вот что означает значение ap. Тем не менее, ноль по сути никогда не является строго истинным. Но даже если мы ослабим это значение до «почти правдивого» или «примерно правильного» или чего-то подобного, это будет означать, что 1 000 000 исследований должны быть посвящены таким вещам, как

Связь между номером социального страхования и IQ
Связана ли длина ваших пальцев с состоянием вашего рождения?

и так далее. Бред какой то.

Одна проблема, конечно, в том, что мы не знаем, какие нули являются правдой. Другая проблема - та, о которой @Glen_b упомянул в своем комментарии - проблема с ящиком файлов.

Вот почему мне так нравятся идеи Роберта Абельсона, которые он выдвигает в « Статистике как принципиальный аргумент» . То есть статистические данные должны быть частью принципиального аргумента относительно того, почему что-то происходит, и должны оцениваться по критериям MAGIC:

Величина: насколько велик эффект?
Артикуляция: это полно "если", "и" и "но" (это плохо)
Общность: Насколько широко это применяется?
интересности
Credibilty: Невероятные заявления требуют много доказательств

— Питер Флом
источник

4

Можно ли даже сказать: «Если 1М исследования выполнены, и даже если все нулевые гипотезы верны, то приблизительно 50 000 будут выполнять ошибку типа 1 и неправильно отклонять нулевую гипотезу? Если исследователь получает р <0,05, они знают только, что« h0 является правильным и произошло редкое событие ИЛИ h1 неверен ". Нет способа узнать, что это, просто взглянув на результаты этого одного исследования, не так ли?

— n_mu_sigma

5

Вы можете получить ложное срабатывание только в том случае, если положительное значение фактически ложно. Если вы выбрали 40 IV, которые были бы все шумными, то у вас был бы хороший шанс ошибки типа I. Но обычно мы выбираем капельницы по причине. И ноль ложен. Вы не можете сделать ошибку типа I, если null равен false.

— Питер Флом

6

Я совсем не понимаю ваш второй абзац, включая пункты с маркером. Допустим, ради аргумента, что все 1 миллион исследований были на испытаниях лекарственных препаратов для лечения определенного состояния. Нулевая гипотеза для каждого из этих исследований заключается в том, что препарат не лечит состояние. Итак, почему это должно быть "по сути никогда не бывает строго правдой"? Кроме того, почему вы говорите, что все исследования должны быть о бессмысленных отношениях, таких как ss # и IQ? Спасибо за любое дополнительное объяснение, которое может помочь мне понять вашу точку зрения.

— Chelonian

11

Чтобы конкретизировать примеры @ PeterFlom: первые три цифры SSN (используются для) кодируют почтовый индекс заявителя. Поскольку в отдельных штатах демографические показатели несколько различаются, а размер пальцев может коррелировать с некоторыми демографическими факторами (возраст, раса и т. Д.), Почти наверняка существует связь между числом социального страхования и размером пальцев - если у человека достаточно данных.

— Мэтт Краузе

6

@MattKrause хороший пример. Я предпочитаю подсчет пальцев по полу. Я уверен, что если бы я провел перепись всех мужчин и всех женщин, я бы обнаружил, что у одного пола в среднем больше пальцев, чем у другого. Не взяв очень большой выборки, я понятия не имею, у какого пола больше пальцев. Кроме того, я сомневаюсь, что как производитель перчаток я бы использовал данные переписи пальцев при разработке перчаток.

— Эмори

40

Разве все исследования в мире не похожи на «теорему о бесконечной обезьяне»?

Помните, что ученые критически НЕ похожи на бесконечных обезьян, потому что их исследовательское поведение - особенно эксперименты - совсем не случайно. Эксперименты - это (по крайней мере, предполагается) невероятно тщательно контролируемые манипуляции и измерения, основанные на механически обоснованных гипотезах, основанных на большом количестве предыдущих исследований. Это не просто случайные снимки в темноте (или обезьяньи пальцы на пишущих машинках).

Учтите, что в мире насчитывается 23887 университетов. Если в каждом университете обучается 1000 студентов, это 23 миллиона студентов в год. Скажем, каждый год каждый студент проводит хотя бы одно исследование,

Эта оценка количества опубликованных результатов исследований должна быть далека. Я не знаю, есть ли в мире 23 миллиона «студентов университетов» (в том числе университетов или колледжей?), Но я знаю, что подавляющее большинство из них никогда не публикуют никаких научных результатов. Я имею в виду, что большинство из них не являются специалистами по науке, и даже большинство специалистов по науке никогда не публикуют результаты.

Более вероятная оценка (некоторое обсуждение ) количества научных публикаций в год составляет около 1-2 миллионов.

Не значит ли это, что даже если все исследовательские образцы были взяты из случайной популяции, около 5% из них «отклонили бы нулевую гипотезу как недействительную». Ух ты. Подумай об этом. Это около миллиона научных работ в год, публикуемых из-за «значительных» результатов.

Имейте в виду, что не во всех опубликованных исследованиях есть статистика, значимость которой соответствует значению р = 0,05. Часто можно увидеть значения р, такие как р <0,01 или даже р <0,001. Конечно, я не знаю, что такое «среднее» значение p - более миллиона бумаг.

Если это так, то это страшно. Это означает, что большая часть «научной истины», которую мы считаем само собой разумеющимся, основана на чистой случайности.

Кроме того, имейте в виду, ученые действительно не должны брать небольшое количество результатов при р около 0,05 , как «научной истины». Даже не близко. Предполагается, что ученые объединяют многие исследования, каждое из которых обладает соответствующей статистической мощностью, вероятным механизмом, воспроизводимостью, величиной эффекта и т. Д., И включают это в предварительную модель того, как работает какое-то явление.

Но значит ли это, что почти вся наука верна? Ни за что. Ученые - люди, и они становятся жертвами предубеждений, плохой методологии исследования (включая неправильные статистические подходы), мошенничества, простой человеческой ошибки и неудачи. Вероятно, более доминирующим в том, почему здоровая часть опубликованной науки ошибочна, являются эти факторы, а не конвенция p <0,05. На самом деле, давайте просто перейдем прямо к этой погоне и сделаем еще более «пугающее» утверждение, чем то, что вы выдвинули:

Почему большинство опубликованных результатов исследований являются ложными

— Chelonian
источник

10

Я бы сказал, что Иоаннидис выдвигает строгий аргумент в поддержку вопроса. Наука не делает ничего подобного, а оптимисты, отвечающие здесь, похоже, думают. И многие опубликованные исследования никогда не повторяются. Более того, когда делается попытка репликации, результаты, как правило, подтверждают аргумент Иоаннидиса о том, что большая часть опубликованной науки - это в основном чушь.

— matt_black

9

Может быть интересно, что в физике элементарных частиц наше пороговое значение р, чтобы заявить об открытии, составляет 0,00000057.

— Дэвид З,

2

И во многих случаях значения p вообще отсутствуют. Математика и теоретическая физика - частые случаи.

— Davidmh

21

$p$

$\alpha$

См., Например, это недавнее обсуждение статьи 2014 года Дэвида Колкухуна: « Путаница с частотой ложных открытий и многократным тестированием» (Colquhoun 2014) . Я спорил против этой оценки «по крайней мере 30%», но я согласен, что в некоторых областях исследований уровень ложных открытий может быть намного выше, чем 5%. Это действительно беспокоит.

Я не думаю, что высказывание о том, что null почти никогда не соответствует действительности, помогает здесь; Ошибки типа S и типа M (представленные Эндрю Гельманом) не намного лучше ошибок типа I / II.

Я думаю, что это на самом деле означает, что нельзя доверять изолированному «значительному» результату.

$\alpha\approx 10^{-7}$ $\alpha=0.05$

$p<0.05$ $p$

$p<0.05$

— амеба говорит восстановить монику
источник

«Кумулятивные значения p»: можете ли вы просто умножить отдельные значения p или вам нужно сделать чудовищную комбинаторику, чтобы она работала?

— Кевин

p

$p$

α

$\alpha$

p

$p$

17

Ваша забота - это именно та забота, которая лежит в основе сегодняшней дискуссии в науке о воспроизводимости. Однако истинное положение дел немного сложнее, чем вы предполагаете.

Во-первых, давайте установим некоторую терминологию. Тестирование значимости нулевой гипотезы можно понимать как проблему обнаружения сигнала - нулевая гипотеза является либо истинной, либо ложной, и вы можете либо отклонить ее, либо оставить ее без изменений. Сочетание двух решений и двух возможных «истинных» состояний дел приводит к следующей таблице, которую большинство людей видят в какой-то момент, когда они впервые изучают статистику:

введите описание изображения здесь

Ученые, которые используют тестирование значимости нулевой гипотезы, пытаются максимизировать количество правильных решений (показано синим цветом) и минимизировать количество неправильных решений (показано красным). Работающие ученые также пытаются опубликовать свои результаты, чтобы они могли получить работу и продвинуться по карьерной лестнице.

$H_0$

Смещение публикации

$\alpha$

$p$

Исследователь степеней свободы

$\alpha$ $\alpha$ , Учитывая наличие достаточно большого количества сомнительных исследовательских практик, уровень ложных срабатываний может доходить до 0,60, даже если номинальный показатель был установлен на уровне 0,05 ( Simmons, Nelson & & Simonsohn, 2011 ).

Важно отметить, что неправильное использование степеней свободы исследователя (которое иногда называют сомнительной исследовательской практикой; Martinson, Anderson, & de Vries, 2005 ) - это не то же самое, что составление данных. В некоторых случаях исключение выбросов является правильным решением либо из-за отказа оборудования, либо по какой-либо другой причине. Ключевой вопрос заключается в том, что при наличии степеней свободы исследователя решения, принимаемые в ходе анализа, часто зависят от того, как получаются данные ( Gelman & Loken, 2014), даже если исследователи не знают об этом факте. Пока исследователи используют степени свободы исследователя (сознательно или неосознанно) для увеличения вероятности значительного результата (возможно, потому, что значимые результаты более «публикуемы»), наличие степеней свободы исследователя перенасыщает исследовательскую литературу ложными срабатываниями в так же, как смещение публикации.

Важным предостережением к вышеупомянутому обсуждению является то, что научные статьи (по крайней мере, в области психологии, которая является моей областью) редко состоят из отдельных результатов. Более распространенными являются множественные исследования, каждое из которых включает в себя несколько тестов - акцент делается на построение более широкого аргумента и исключение альтернативных объяснений представленных доказательств. Однако выборочное представление результатов (или наличие степеней свободы исследователя) может привести к смещению в наборе результатов так же легко, как и к одному результату. Существуют доказательства того, что результаты, представленные в документах с несколькими исследованиями, часто намного чище и сильнее, чем можно было бы ожидать, даже если бы все прогнозы этих исследований были верными ( Francis, 2013 ).

Заключение

По сути, я согласен с вашей интуицией, что проверка значимости нулевой гипотезы может пойти не так. Тем не менее, я бы сказал, что истинными виновниками, приводящими к большому количеству ложных срабатываний, являются такие процессы, как смещение публикаций и наличие степеней свободы исследователя. Действительно, многие ученые хорошо осведомлены об этих проблемах, и улучшение научной воспроизводимости является очень актуальной актуальной темой для обсуждения (например, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Таким образом, вы находитесь в хорошей компании со своими проблемами, но я также думаю, что есть также причины для некоторого осторожного оптимизма.

Рекомендации

Stern, JM & Simes, RJ (1997). Предвзятость публикации: доказательства задержки публикации в когортном исследовании клинических исследовательских проектов. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Дван К., Альтман Д.Г., Арнаис Д.А., Блум Дж., Чан А., Кронин Е., Уильямсон П.Р. (2008). Систематический обзор эмпирических данных о предвзятости публикаций исследования и предвзятости отчетности. PLOS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Розенталь Р. (1979). Проблема с файловым ящиком и допуск для нулевых результатов. Психологический вестник, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Мартинсон, BC, Андерсон, MS, & de Vries, R. (2005). Ученые ведут себя плохо. Nature, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. & Loken, E. (2014). Статистический кризис в науке. Американский ученый, 102, 460-465.

Фрэнсис Г. (2013). Репликация, статистическая согласованность и систематическая ошибка публикации. Журнал математической психологии, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Носек Б.А. и Бар-Анан Ю. (2012). Научная утопия: I. Открытие научной коммуникации. Психологическое расследование, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Носек Б.А., Spies JR и Motyl M. (2012). Научная утопия: II. Перестройка стимулов и практики для продвижения правды над публикуемостью. Перспективы психологических наук, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

— Патрик С. Форшер
источник

1

+1. Хорошая коллекция ссылок. Вот одна очень важная статья для вашего раздела «Степени свободы исследователя»: Сад путей разветвления: почему множественные сравнения могут быть проблемой, даже когда нет «рыболовной экспедиции» или «p-хакерства» и гипотеза исследования была опередил Эндрю Гельман и Эрик Локен (2013).

— амеба говорит восстановить Монику

Спасибо, @amoeba, за эту интересную ссылку. Мне особенно нравится то, что Гельман и Локен (2013) делают вывод, что использование степеней свободы исследователя не должно быть сознательным процессом. Я отредактировал свой ответ, чтобы включить эту статью.

— Патрик С. Форшер

Я только что нашел опубликованную версию Gelman & Loken (2014) в журнале American Scientist.

— Патрик С. Форшер

10

Существенная проверка важного вопроса, поднятого в этом вопросе, заключается в том, что «научная истина» не основана на отдельных изолированных публикациях. Если результат достаточно интересен, это побудит других ученых продолжить изучение последствий этого результата. Эта работа будет иметь тенденцию подтверждать или опровергать первоначальный вывод. Вероятность отклонения истинной нулевой гипотезы в отдельном исследовании может составлять 1/20, но только 1/400 - два раза подряд.

Если бы ученые просто повторяли эксперименты, пока не нашли «значимость», а затем опубликовали свои результаты, проблема могла бы быть такой же большой, как предполагает ОП. Но наука работает не так, по крайней мере, за мой почти 50-летний опыт биомедицинских исследований. Кроме того, публикация редко посвящена одному «значительному» эксперименту, а скорее основана на ряде взаимосвязанных экспериментов (каждый из которых должен быть «значимым» сам по себе), которые вместе обеспечивают поддержку более широкой, предметной гипотезы.

Гораздо большая проблема исходит от ученых, которые слишком привержены своим собственным гипотезам. Затем они могут чрезмерно истолковать значение отдельных экспериментов для обоснования своих гипотез, участвовать в сомнительном редактировании данных (например, произвольно удалять выбросы) или (как я видел и помогал поймать) просто составлять данные.

Наука, однако, является в высшей степени социальным процессом, независимо от мифологии о безумных ученых, скрывающихся высоко в башнях из слоновой кости. Движение и взятие среди тысяч ученых, преследующих их интересы, основанные на том, что они узнали из работы других, является окончательной институциональной защитой от ложных срабатываний. Ложные выводы могут иногда сохраняться годами, но если проблема является достаточно важной, процесс в конечном итоге выявит ошибочные выводы.

— магистр педагогических наук
источник

6

1 / 4000

$1/4000$

40

$40$

2

Из 23 миллионов исследований мы все еще не могли сказать, отклоняют ли 5.000 результатов нулевую гипотезу только из-за шума, не так ли? Это действительно проблема масштаба. Если у вас есть миллионы исследований, ошибка типа 1 будет распространена.

— n_mu_sigma

3

Если бы из 23 000 000 исследований было только 5000 ошибочных выводов, я бы назвал это действительно необычным !

— whuber

3

За почти 50 лет занятий наукой и знакомства с другими учеными я не могу вспомнить ни одного, кто повторял эксперименты, пока они не достигли «значимости». Теоретическая возможность, которую предоставляет @whuber, по моему опыту, не является большой практической проблемой. Гораздо более серьезная практическая проблема заключается в составлении данных, либо косвенным путем, отбрасывая «выбросы», которые не соответствуют предвзятому мнению, либо просто составляя «данные» для начала. Такое поведение я видел из первых рук, и его нельзя исправить, отрегулировав p-значения .

— EdM

3

@EdM "Может быть 1/20 шансов отклонить истинную нулевую гипотезу в отдельном исследовании, но только 1/4000, делая это дважды подряд". Как ты получил второй номер?

— Аксакал

5

Просто чтобы добавить к обсуждению, вот интересный пост и последующее обсуждение о том, как люди обычно неправильно понимают р-значение.

Что следует сохранить в любом случае, так это то, что значение p - это всего лишь мера силы доказательств, отвергающих данную гипотезу. Значение p определенно не является жестким порогом, ниже которого что-то является «истинным» и выше которого оно происходит только по случайности. Как объяснено в посте, указанном выше:

результаты представляют собой сочетание реальных эффектов и случайности, это не

— Antoine
источник

может быть , это будет способствовать пониманию р-значений: stats.stackexchange.com/questions/166323/...

4

Как также указывалось в других ответах, это вызовет проблемы только в том случае, если вы собираетесь выборочно учитывать положительные результаты, когда нулевая гипотеза исключается. Вот почему ученые пишут обзорные статьи, в которых они рассматривают ранее опубликованные результаты исследований и стараются на этой основе лучше понять предмет. Тем не менее, здесь все еще остается проблема, связанная с так называемой «предвзятостью публикации», то есть ученые с большей вероятностью напишут статью о положительном результате, чем о отрицательном результате, также статья о отрицательном результате с большей вероятностью будет отклонено для публикации, чем статья о положительном результате.

Особенно в областях, где статистические тесты очень важны, будет ли это большой проблемой, область медицины является печально известным примером. Вот почему было сделано обязательным регистрировать клинические испытания до их проведения (например, здесь ). Таким образом, вы должны объяснить настройку, как будет выполняться статистический анализ и т. Д. И т. Д. До начала испытания. Ведущие медицинские журналы откажутся публиковать статьи, если испытания, о которых они сообщают, не зарегистрированы.

К сожалению, несмотря на эту меру, система работает не так хорошо .

— Граф Иблис
источник

может быть , это будет способствовать пониманию р-значений: stats.stackexchange.com/questions/166323/...

3

Это близко к очень важному факту о научном методе: он подчеркивает фальсификацию. Философия науки, которая является самой популярной сегодня, в качестве основы лежит концепция фальсифицируемости Карла Поппера .

Основной научный процесс, таким образом:

Любой может претендовать на любую теорию, которую хочет, в любое время. Наука признает любую теорию, которая «фальсифицируема». Наиболее буквальное значение этого слова состоит в том, что, если кому-то еще не нравится утверждение, этот человек может свободно тратить ресурсы, чтобы опровергнуть утверждение. Если вы не думаете, что носки Argyle излечивают рак, вы можете использовать свое медицинское отделение, чтобы опровергнуть его.
Поскольку этот барьер для входа монументально низок, традиционно, что «Наука» как культурная группа на самом деле не будет развлекать никакую идею, пока вы не приложите «хорошие усилия», чтобы фальсифицировать свою собственную теорию.
Принятие идей имеет тенденцию идти поэтапно. Вы можете получить свою концепцию в журнальной статье с одним исследованием и довольно низким p-значением. То, что это покупает вас, является гласностью и некоторым доверием. Если кого-то интересует ваша идея, например, если у вашей науки есть инженерные приложения, они могут захотеть использовать ее. В это время они с большей вероятностью профинансируют дополнительный раунд фальсификаций.
Этот процесс идет вперед, всегда с одним и тем же отношением: верь в то, что хочешь, но чтобы назвать это наукой, я должен иметь возможность опровергнуть это позже.

Эта низкая планка для входа - вот что позволяет ему быть таким инновационным. Так что да, существует большое количество теоретически «неправильных» журнальных статей. Однако главное в том, что каждая опубликованная статья теоретически фальсифицируется, поэтому в любой момент кто-то может потратить деньги на ее тестирование.

Это ключ: журналы содержат не только вещи, которые проходят разумный p-тест, но также содержат ключи, позволяющие другим разобрать его, если результаты окажутся ложными.

— Корт Аммон
источник

1

Это очень идеалистично. Некоторые люди обеспокоены тем, что слишком много неправильных работ может создать слишком низкое отношение сигнал / шум в литературе и серьезно замедлить или дезинформировать научный процесс.

— амеба говорит восстановить монику

1

@amoeba Вы подняли хороший вопрос. Я, конечно, хотел запечатлеть идеальный случай, потому что нахожу, что он часто теряется в шуме. Кроме того, я думаю, что вопрос SNR в литературе является действительным вопросом, но, по крайней мере, он должен быть сбалансированным. Уже есть представления о хороших журналах против плохих, поэтому есть некоторые намеки на то, что этот процесс балансировки уже ведется некоторое время.

— Корт Аммон

Это понимание философии науки, похоже, устарело на несколько десятилетий. Фальсифицируемость Поппера является «популярной» только в том смысле, что это обычный городской миф о том, как происходит наука.

— EnergyNumbers

@EnergyNumbers Не могли бы вы рассказать мне о новом мышлении? У философии SE совершенно другое мнение, чем у вас. Если вы посмотрите на историю вопроса там, Поппера фальсифицируемость является определяющей характеристикой науки для большинства тех , кто говорит голос. Я хотел бы изучить новый способ мышления и привнести его туда!

— Корт Аммон

Новый? Кун опроверг Поппер десятилетия назад. Если у вас нет ни одного поста Поппериана на философии.se, то его обновление может показаться безнадежным делом - просто оставьте его в 1950-х годах. Если вы хотите обновить себя, то любой начинающий студент 21-го века по философии науки должен начать вас.

— EnergyNumbers

1

Так ли должна работать наука?

Вот так много социальных наук работают. Не так много с физическими науками. Подумайте об этом: вы набрали свой вопрос на компьютере. Люди смогли построить этих сложных зверей, называемых компьютерами, используя знания физики, химии и других областей физических наук. Если бы ситуация была так плоха, как вы описываете, ни одна из электроники не сработала бы. Или подумайте о таких вещах, как масса электрона, которая известна с безумной точностью. Они проходят через миллиарды логических элементов компьютера, и ваш компьютер работает и работает годами.

ОБНОВЛЕНИЕ: Чтобы ответить на отрицательные голоса, которые я получил, я был вдохновлен, чтобы дать вам пару примеров.

Первый - из физики: Быстрицкий В.М. и др. « Измерение астрофизических S-факторов и сечений реакции p (d, γ) 3He в области сверхнизких энергий с использованием мишени из дейтерида циркония ». Физика частиц и ядер. Письма 10.7 (2013): 717-722.

$0.237 \pm 0.061$

Мой следующий пример из ... психологии: Паустиан-Андердал, Саманта С., Лиза Слаттери Уокер и Дэвид Дж. Вур. « Гендер и восприятие эффективности лидерства: метаанализ контекстуальных модераторов ». Журнал прикладной психологии, 2014, том. 99, № 6, 1129–1145.

$\chi^2$

Теперь, посмотрите на некоторые таблицы из бумаг и угадайте, из каких они бумаг:

введите описание изображения здесь

Вот ответ, почему в одном случае вам нужна «классная» статистика, а в другом - нет, потому что данные либо дрянные, либо нет. Когда у вас есть хорошие данные, вам не нужно много статистики, кроме стандартных ошибок.

ОБНОВЛЕНИЕ2: @ PatrickS.Forscher сделал интересное заявление в комментарии:

Также верно, что теории социальных наук «мягче» (менее формальны), чем физические теории.

Я должен не согласиться. В экономике и финансах теории вовсе не «мягкие». Вы можете случайно найти документ в этих полях и получить что-то вроде этого:

введите описание изображения здесь

и так далее.

Это от Шервиша, Марка Дж., Тедди Сейденфельда и Джозефа Б. Кадейна. « Расширения теории ожидаемой полезности и некоторые ограничения парных сравнений ». (2003). Это выглядит мягким для вас?

Я повторяю свою точку зрения здесь, что, когда ваши теории не хороши, а данные ненадежны, вы можете использовать самую сложную математику и все же получить дерьмовый результат.

В этой статье они говорят о коммунальных услугах, концепции, как счастье и удовлетворение - абсолютно ненаблюдаемой. Это как польза иметь дом вместо еды чизбургера? Предположительно есть эта функция, где вы можете подключить «есть чизбургер» или «жить в собственном доме», и функция будет выдавать ответ в некоторых единицах. Как ни странно это звучит, но это то, на чем основана современная экномика, благодаря фон Нейману.

— Аксакал
источник

1

+1 Не уверен, почему за это проголосовали дважды. Вы в основном указываете на то, что открытия в физике могут быть проверены экспериментами, а большинство «открытий» в социальных науках не может быть, что не мешает им привлекать большое внимание средств массовой информации.

— Камбала

6

Большинство экспериментов, в конечном счете, включают в себя какой-то статистический тест и все еще оставляют место для ошибок типа 1 и неправильного поведения, таких как промысел p-значения. Я думаю, что выделение социальных наук немного не в порядке.

— Кэндзи

4

Чтобы немного изменить то, что говорит @GuilhermeKenjiChihaya, стандартное отклонение ошибок можно предположительно использовать для проведения статистического теста в физических экспериментах. Предположительно, этот статистический тест придет к такому же выводу, к которому авторы приходят при просмотре графика с его барами ошибок. Таким образом, основное различие с физическими работами заключается в основном количестве шума в эксперименте, которое не зависит от того, Логика, лежащая в основе использования p-значений, действительна или недействительна.

— Патрик С. Форшер

3

Кроме того, @Flounderer, вы, кажется, используете термин «эксперимент» в том смысле, с которым я незнаком, поскольку социологи проводят «эксперименты» (то есть рандомизацию единиц в условия) все время. Это правда, что социальные научные эксперименты трудно контролировать в той же степени, что и в физических экспериментах. Также верно, что теории социальных наук «мягче» (менее формальны), чем физические теории. Но эти факторы не зависят от того, является ли данное исследование «экспериментом».

— Патрик С. Форшер

2

@Aksakal, хотя я не согласен с -1, я также частично не согласен с вашим критиком социальных наук. Ваш пример экономической работы также не является хорошим примером того, что социологи делают ежедневно, потому что теория полезности является строго экономической / математической / статистической концепцией (поэтому в ней уже есть математика), и она не похожа, например, на психологические теории, которые проверены экспериментально ... Однако я согласен с тем, что часто случается так, что статистика используется свободно во многих областях исследований, включая социальные науки.

— Тим