Статистика публикуется в научных статьях


44

Я прочитал много научных статей об эволюции / экологии, иногда с конкретной целью увидеть, как статистика используется «в реальном мире» за пределами учебника. Обычно я воспринимаю статистику в статьях как Евангелие и использую эти документы, чтобы помочь в моем статистическом обучении. В конце концов, если для написания статьи потребовались годы, и она прошла тщательный рецензирование, то, несомненно, статистика будет надежной? Но в последние несколько дней я поставил под сомнение свое предположение и удивился, как часто статистический анализ, публикуемый в научных статьях, является подозрительным? В частности, можно ожидать, что специалисты в таких областях, как экология и эволюция, потратили меньше времени на изучение статистики и больше времени на изучение своих областей.

Как часто люди находят подозрительную статистику в научных статьях?



18
Рецензентами часто являются люди, которые не знают намного больше о статистике, чем те, кто пишет статью, поэтому зачастую легко опубликовать плохую статистику.
Behacad

9
Публикация статьи является первым шагом к ее принятию научным сообществом, а не последним. Большинство опубликованных работ будут иметь серьезные недостатки в некоторых областях, использование статистики не является исключением.
Дикран Marsupial

3
Ваше предположение о том, что газеты «занимают годы, чтобы написать», далеко от истины. Сбор данных может занять много времени, но анализ данных и их составление обычно составляют недели, а не годы.
Дэвид Ричерби

2
В настоящее время хорошо известно, что статистика во многих статьях по психологии и медицине, по крайней мере, сомнительна, просто неверна или даже не так часто. Плохое использование значений p и NHST является ярким примером проблем, см. Это примечание .
Кварц

Ответы:


38

В конце концов, если для написания статьи потребовались годы, и она прошла тщательный рецензирование, то, несомненно, статистика будет надежной?

Мой опыт чтения статей, которые пытаются применять статистику в самых разных областях (политология, экономика, психология, медицина, биология, финансы, актуарная наука, бухгалтерский учет, оптика, астрономия и многие, многие другие), заключается в том, что качество статистический анализ может быть где угодно в спектре от превосходного и хорошо сделанного до вопиющей бессмыслицы. Я видел хороший анализ в каждой из областей, которые я упомянул, и довольно плохо проведенный анализ почти во всех из них.

Некоторые журналы, как правило, довольно хороши, а некоторые могут больше походить на игру в дартс с завязанными глазами - большинство из них вы можете получить не слишком ужасно далеко от цели, но некоторые будут в стене, на полу и потолке. И, возможно, кот.

Я не планирую называть виновных, но скажу, что я видел академическую карьеру, основанную на неправильном использовании статистики (то есть, когда одни и те же ошибки и недоразумения повторялись на бумаге за бумагой в течение более десяти лет).

Поэтому мой совет: пусть читатель остерегается ; не верьте, что редакторы и рецензенты знают, что они делают. Со временем вы можете понять, на каких авторов обычно можно положиться, чтобы они не делали ничего слишком шокирующего, а на каких следует относиться особенно осторожно. Вы можете почувствовать, что некоторые журналы обычно имеют очень высокий стандарт для своей статистики.

Но даже обычно хороший автор может ошибиться, или рецензенты и редакторы могут не заметить ошибок, которые они обычно могут найти; Как правило, хороший журнал может публиковать ревун.

[Иногда вы даже увидите, что действительно плохие газеты получают призы или награды ... что тоже мало говорит о качестве людей, оценивающих приз.]

Я не хотел бы догадываться, какую долю «плохой» статистики я мог видеть (в разных ипостасях и на каждом этапе от определения вопроса, дизайна исследования, сбора данных, управления данными, ... вплоть до анализ и выводы), но он не настолько мал, чтобы чувствовать себя комфортно.

Я мог бы привести примеры, но я не думаю, что это правильный форум для этого. (Было бы неплохо, если бы для этого был хороший форум, но, с другой стороны, он, скорее всего, довольно быстро «политизировался бы» и вскоре не смог бы выполнить свою задачу.)

Я потратил некоторое время на просмотр PLOS ONE ... и снова, не собираясь указывать на конкретные документы. Некоторые вещи, которые я заметил: похоже, что большая часть статей содержит статистику, вероятно, более половины имеют тесты на гипотезы. Основными опасностями, по-видимому, являются многочисленные тесты, либо с высоким например 0,05 на каждый (что не является автоматически проблемой, если мы понимаем, что довольно много действительно крошечных эффектов могут оказаться значительными по случайности), или невероятно низкий уровень индивидуальной значимости, который будет иметь тенденцию давать низкую мощность. Я также видел ряд случаев, когда около полудюжины различных тестовαбыли, по-видимому, применены для решения точно такого же вопроса. Это кажется мне вообще плохой идеей. В целом стандарт был довольно хорошим для нескольких десятков газет, но в прошлом я видел там совершенно ужасную газету.

[Возможно, я мог бы потворствовать только одному примеру, косвенно. Этот вопрос задает вопрос о том, кто делает что-то весьма сомнительное. Это далеко не самое худшее, что я видел.]

С другой стороны, я также вижу (еще чаще) случаи, когда люди вынуждены перепрыгивать через все виды ненужных обручей, чтобы их анализ был принят; совершенно разумные вещи не принимаются, потому что есть «правильный» способ сделать что-то по мнению рецензента, редактора или руководителя, или просто в негласной культуре конкретной области.


2
« Предостережение лектора », учитывая растущее число журналов открытого доступа?
Scortchi - Восстановить Монику

1
@scortchi Я решил вообще избежать этой проблемы, просто написав на английском. Это улучшение.
Glen_b

10
Не называя конкретных виновников, я думаю, что faculty.vassar.edu/abbaird/about/publications/pdfs/… заслуживает упоминания. Чтобы доказать точку зрения о неправильном использовании статистики в своей области, они использовали широко используемый статистический протокол для анализа результатов сканирования МРТ мертвого лосося. Они обнаружили «статистически значимую» активность мозга. statisticsdonewrong.com также делает интересное чтение.
James_pic

1
@James_pic, пришлось присоединиться к +1 к этому комментарию по статистике, неправильная ссылка; Обсуждение ошибки базовой ставки особенно интересно.
Дэн Брайант

1
@KennyPeanuts: Нет - просто указывает на то, что в настоящее время многие лекторы даже косвенно не занимаются импортом .
Scortchi - Восстановить Монику

16

Я уважаю позицию @ Glen_b о правильном способе ответить здесь (и, конечно, не собираюсь умалять ее), но я не могу удержаться, указывая на особенно интересный пример, который находится недалеко от моего дома. Риск политизировать вещи и делать из этого вопроса плохую услугу, я рекомендую Wagenmakers, Wetzels, Boorsboom и Van Der Maas (2011) . Я процитировал это в соответствующем посте на бета-версии SE Cognitive Sciences ( Как когнитивная наука объясняет отдаленную интенциональность и функцию мозга у реципиентов? ), Где рассматривается еще один пример «дротика, поражающего кошку». Статья Wagenmakers и его коллег прямо комментирует реальный «ревун»: она была опубликована в JPSP (одном из крупнейших журналов по психологии).) пару лет назад. Они также приводят более общие аргументы в пользу байесовского анализа и того, что:

Чтобы убедить скептически настроенную аудиторию в противоречивых утверждениях, необходимо проводить строго подтверждающие исследования и анализировать результаты с помощью статистических тестов, которые являются скорее консервативными, чем либеральными.

Мне, вероятно, не нужно говорить вам, что это не было похоже на проповедь хору. FWIW, есть и опровержение (как всегда, кажется, между байесовцами и частыми людьми ; ( Bem, Utts, & Johnson, 2011 ) , но я чувствую, что это точно не помешало обсуждению .

Психология как научное сообщество в последнее время переживает некоторый скачок тиражирования, отчасти из-за этого и других громких методологических недостатков. Другие комментарии здесь указывают на случаи, подобные тем, которые когда-то были известны как корреляции вуду в социальной нейробиологии (как это происходит с политически некорректным BTW? Статья была переименована; Vul, Harris, Winkielman & Pashler, 2009 ). Это также привлекло его опровержение , которое вы можете проверить, чтобы обсудить больше спорных методов.

Для еще большего образования за счет (более обезличенного) за счет (псевдо) статистики, ведущие себя плохо, см. Наш 8-й в настоящее время вопрос с наибольшим количеством голосов здесь, в резюме, с другим (по общему признанию) политически некорректным названием: « Каковы общие статистические грехи? », Его OP @MikeLawrence связывает свое вдохновение с параллельным изучением психологии и статистики. Это один из моих личных фаворитов, и его ответы очень полезны для того, чтобы самим избежать неисчислимых ловушек.


Лично я провел большую часть последних пяти месяцев здесь в основном потому, что поразительно сложно получить точную статистику по некоторым вопросам анализа данных. Честно говоря, рецензирование часто совсем не очень строго, особенно с точки зрения статистического изучения исследований в более молодых науках со сложными вопросами и множеством эпистемических осложнений. Поэтому я чувствовал необходимость взять на себя личную ответственность за полировку методов в моей собственной работе.

В то время как представления моего диссертационного исследования , у меня ощущение , как важно личная ответственность за статистическую изученность. Два исключительных психолога из моей alma mater добавили, что я совершаю один из самых основных грехов в своих интерпретациях корреляций. Я считал себя выше этого и уже несколько раз читал лекции об этом студентам, но я все еще шел туда и меня вызвали (рано, слава Богу). Я пошел туда, потому что исследования, которые я проверял и копировал, пошли туда! Таким образом, я добавил несколько разделов к своей диссертации это вызвало тех других исследователей для предположения причинности из квазиэкспериментальных продольных исследований (иногда даже из поперечных корреляций) и преждевременного игнорирования альтернативных объяснений.

Моя диссертация была принята без изменений моим комитетом, в состав которого входил еще один исключительный психометрик и вскоре ставший президентом SPSP (который публикует JPSP), но, если честно, еще раз, я не хвастаюсь этим. С тех пор мне удавалось пробить несколько кроличьих норе в моих собственных методах, несмотря на прохождение процесса внешнего обзора с совершенно хорошими рецензентами. Теперь я углубился в статистику, пытаясь подключить их к методам, более подходящим для прогнозирующего моделирования рейтингов Лайкерта, таким как SEM, IRT и непараметрический анализ (см. Регрессионное тестирование после уменьшения измерения).). Я добровольно предпочитаю потратить годы на статью, которую я, вероятно, мог бы просто опубликовать как есть ... Я думаю, что у меня даже осталось симуляционное исследование, прежде чем я смогу добросовестно продолжить работу.

Тем не менее, я подчеркиваю, что это необязательно - может быть, даже чрезмерно усердно и дорогое удовольствие в культуре «публикуй или погибай», которая часто подчеркивает количество над качеством в записях о работе на ранних этапах карьеры. Неправильное применение параметрических моделей для непрерывных данных к распределениям порядковых данных с нарушением допущений слишком распространено в моей области, равно как и неправильное толкование и искажение статистической значимости (см. Приспособление укоренившихся представлений о p-значениях ). Я мог бы полностью сойти с рук (в краткосрочной перспективе) ... и это даже не так сложно сделать лучше, чем это. Я предполагаю, что у меня есть несколько последних лет удивительных достижений в программах R, чтобы поблагодарить за это! Здесь надеемся, что времена меняются.


Ссылки
· Bem, DJ, Utts, J. & Johnson, WO (2011). Должны ли психологи изменить способ анализа своих данных? Журнал личности и социальной психологии, 101 (4), 716–719. Получено с http://deanradin.com/evidence/Bem2011.pdf .
· Вул, Е. Харрис, К., Winkielman П., & Pashler, H. (2009). Удивительно высокие корреляции в исследованиях эмоций, личности и социального познания в МРТ. Перспективы психологических наук, 4 (3), 274–290. Получено с http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. & Van der Maas, H. (2011). Почему психологи должны изменить способ анализа своих данных: случай пси. Журнал личности и социальной психологии, 100 , 426–432. Получено с http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .


1
Если вам понравилось "Чувство будущего", то вам, возможно, понравится Witztum et al. (1994), "Эквидистантные последовательности букв в книге Бытия", Statist. Sci. , 9 , 3 . Это привлекло неизбежных насмешников и недовольных: McKay et. и др. (1999), «Решение головоломки с библейским кодом», Statist. Sci. , 14 , 2 .
Scortchi - Восстановить Монику

1
@ Scortchi: спасибо за ссылку, и амеба: спасибо за контекст. Я не вижу претензий в Witzum et al. что Маккей и др. издеваться над ними в своих абстрактных, но они, безусловно, указывают на множество других серьезных недостатков. Хорошая вещь. «В то время как реальные данные могут противоречить ожиданиям ученых, даже если их гипотезы верны, те, чьи эксперименты систематически смещаются в сторону их ожиданий, реже разочаровываются (Rosenthal, 1976)». Это один из тех парней, которые вызвали меня на основании причинно-следственных связей, основанных на квазиэкспериментах ... действительно великий психолог. У Бема тоже есть кое-что.
Ник Стаунер

2
+1 Отличный пост. « Насколько важна личная ответственность за статистическую проверку », - должен я аплодировать. В конечном счете, именно здесь должна лежать ответственность, столь же обременительная, как и для человека, уже пытающегося выполнить работу в области исследований, к которой он хочет применить статистику.
Glen_b

1
@NickStauner: McKay et al. в своем реферате сказать, что Witzum et al. утверждают, что "еврейский текст Книги Бытия кодирует события, которые произошли только через тысячелетия после того, как текст был написан". Возможно, небольшая гипербола, поскольку между написанием Торы и датой рождения последнего раввина из их списка не более двух тысячелетий, но достаточно справедливое резюме. (Полагаю, вы могли бы также увидеть документ Witztum et al. В качестве доказательства недавнего авторства Книги Бытия, хотя, насколько я знаю, никто этого не сделал.)
Scortchi - Восстановить Монику

1
Да, наверное, я не мог понять Witzum et al. достаточно хорошо, чтобы признать, что они предъявляли это требование. На этот раз, я полагаю, я мог бы быть благодарен за тупое написание авторов ... Это кажется немного более интересным по номинальной стоимости, потому что наиболее заметное утверждение состоит в том, что шаблон не случайно, а не то, что шаблон предположительно обусловлен по их мнению. Он мог бы предложить более интересные интерпретации, подобные вашей, если бы он не был переоценен, как McKay et al. скажи, что да ... по крайней мере, до того, как Маккей и др. расстреляли их по методологическим соображениям, не оставив ничего заслуживающего интерпретации.
Ник Стаунер

5

Я вспоминаю, как в Университете несколько раз спрашивали студентов-социологов последнего года обучения (один из них получил 1-й), как рассчитать среднее значение для своего проекта, у которого было несколько точек данных. (Таким образом, у них не было проблем с использованием программного обеспечения, просто с концепцией того, как делать математику с помощью калькулятора.)

Они просто смотрят на меня пустыми глазами, когда я спрашиваю, какой тип среднего они хотят.

Тем не менее, все они чувствовали необходимость внести некоторую статистику в свой отчет, поскольку это было сделано - я ожидаю, что все они прочитали 101 статью, в которой была статистика, не задумываясь о том, что эти статистические значения означают, если что-нибудь.

Ясно, что исследователь, который учил их в течение 3 лет, не заботился о правильности статистики достаточно, чтобы передать какое-то понимание студентам.

(В то время я был студентом-компьютерщиком. Я публикую это как ответ, так как комментариев немного.)


Студенты - это целая другая бочка обезьян, ИМО. Я не стал бы сразу обвинять учителя в его непонимании без дополнительных доказательств ... но если вам так ясно, как вы говорите, что виноват учитель, я тоже не удивлюсь.
Ник Стаунер

@NickStauner, я обвиняю учителя в недостаточной заботе о статистике; если бы они заботились, на каждом экзаменационном листе был бы хотя бы один вопрос, который требовал некоторого понимания статистики, на уровне «Как совмещать со статистикой». Мне все равно, знают ли студенты, изучающие общественные науки, как делать вычисления, но они должны знать, как не вводить в заблуждение.
Ян Рингроз

Договорились, что они должны знать, но нет никаких гарантий, что они правильно ответят на этот вопрос!
Ник Стаунер

@NickStauner, Да, но вы получите только то, что измеряете, поэтому вы не получите студентов, которые что-то понимают в статистике, если вы не включите это в экзамены.
Ян Рингроз

Опять же, я склонен отдавать учителям меньше очков за результаты учащихся. Множество студентов (хорошо, может быть, не «много», но некоторые) будут достаточно заботиться, чтобы учиться ради них самих, а некоторые придут в класс, уже зная большую часть материала. Простите, если я слишком точно истолковал ваш комментарий; Я бы согласился с тем, что зачастую это является необходимым злом, чтобы заставить мотивацию учиться у студентов, и что тестирование - это лучший способ учиться, чем заурядное, повторяющееся изучение / чтение лекций.
Ник Стаунер

0

Как печально неполный список, я нахожу статистику наиболее правильной в 1) статьях по физике, затем в 2) статистических работах и ​​наиболее несчастной в 3) медицинских работах. Причины этого просты и связаны с полнотой требований, предъявляемых к прототипу модели в каждой области.

В работах по физике уравнения и прикладная статистика должны обращать внимание на уравновешенные единицы и чаще всего встречать причинно-следственные связи, а также проверять соответствие физическим стандартам.

В статистике 1) единицы и причинность иногда игнорируются, предположения иногда являются эвристическими, а физическое тестирование слишком часто игнорируется, но равенство (или неравенство), т. Е. Логика, как правило, сохраняется по индуктивному пути, где последние не могут исправить нефизические предположения.

В медицине, как правило, единицы игнорируются, уравнения и допущения, как правило, являются эвристическими, обычно непроверенными и часто ложными.

Естественно, что в области, подобной статистической механике, вероятнее всего, есть проверяемые допущения, чем, скажем, экономика, и это не отражается на талантах будущих авторов в этих областях. Это в большей степени связано с тем, сколько из того, что делается, действительно тестируемо, и сколько тестов было сделано исторически в каждой области.


-7

Любая статья, которая опровергает нулевую нулевую гипотезу, использует бесполезную статистику (подавляющее большинство того, что я видел). Этот процесс не может предоставить никакой информации, еще не предоставленной размером эффекта. Кроме того, это ничего не говорит нам о том, является ли значительный результат фактически причиной, теоретизированной исследователем. Это требует вдумчивого исследования данных на предмет выявления недоразумений. Чаще всего, если таковые имеются, самые сильные из этих доказательств даже выбрасываются как «выбросы».

Я не очень знаком с эволюцией / экологией, но в случае психологических и медицинских исследований я бы назвал уровень статистического понимания «сильно запутанным» и «препятствием для научного прогресса». Предполагается, что люди опровергают нечто, предсказанное их теорией, а не противоположность этому (нулевая разница / эффект).

На эту тему написаны тысячи статей. Посмотрите на гибридную полемику NHST.

Редактировать: И я имею в виду, что критерий значимости нулевой гипотезы имеет максимум нулевой научной ценности. Этот человек ударяет гвоздь по голове:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Также: Пол Мил. 1967. Теория тестирования в психологии и физике: методологический парадокс

Изменить 3:

Если у кого-то есть аргументы в пользу полезности НХСТ, которые не требуют размышлений, « отвергните гипотезу о том, что скорость потепления одинакова, но НЕ принимайте это, чтобы подразумевать, что скорость потепления не одинакова», - это рационально Заявление, я буду рад вашим комментариям.

Изменить 4:

Что имел в виду Фишер под следующей цитатой? Означает ли это, что он подумал: «Если модель / теория A несовместима с данными, мы можем сказать, что A ложно, но ничего не говорит о том , истинна ли A»?

«несомненно, что интерес статистических тестов для научных работников полностью зависит от их использования при отклонении гипотез, которые, таким образом, считаются несовместимыми с наблюдениями».

...

Следовательно, это значительно увеличило бы ясность, с которой рассматриваются критерии значимости, если бы в целом понималось, что критерии значимости при правильном использовании могут отклонять или опровергать гипотезы, поскольку они противоречат данным ; но они никогда не смогут установить их как истинно

Карл Пирсон и Р.А. Фишер о статистических проверках: обмен 1935 года с натуры

Неужели он предполагал, что люди будут только пытаться опровергнуть правдоподобные гипотезы, а не соломенные чучела? Или я не прав?


7
«Этот процесс не может предоставить информацию, еще не предоставленную размером эффекта». это неверно, значение p предоставляет некоторую информацию о том, насколько необычным будет этот размер эффекта при нулевой гипотезе, таким образом, он предоставляет элемент калибровки величины эффекта. Не поймите меня неправильно, я думаю, что байесовские факторы более полезны, но говорить о том, что значение p является бесполезной статистикой, - гипербола.
Дикран Marsupial

3
«Я считаю, что все шаблоны, которые я (и другие) замечаю, заслуживают упоминания», это именно та проблема, которая возникает при обсуждении климата в блогах, человеческий глаз очень хорошо видит шаблоны в данных, которые оказываются просто шумом, и это делает отношение сигнал / шум в дебатах вообще бесполезным, чтобы не было некоторого препятствия для идеи, которую нужно преодолеть, прежде чем публиковать ее в блоге! Это одна из областей науки, где статистика часто очень плохая.
Дикран Marsupial

2
Livid, я привел тебе конкретный пример того, как выполнение соответствующей NHST с «соломенным человеком» H0 было бы полезно для обсуждения научной темы. Это обеспечивает четкие контрпример , который демонстрирует ваш взгляд неверным - NHSTs, как ошибочный , как они, действительно , тем не менее выполняет полезную функцию в области науки и статистике. Теперь, если вы сможете доказать, что мой контрпример верен, это может помочь решить проблему.
Дикран Marsupial

2
@Livid, NHST выполняет научно и статистически, а не социально желательную функцию (хотя и не оптимально) и не ставит произвольных препятствий, как правило, препятствие определяется его противодействием H1, и оно не предполагает совершения «подтверждения последующего заблуждения », поскольку отклонение H0 не означает, что H1 истинно. Так что нет, это не точно.
Дикран Marsupial

3
Вы упускаете суть. Если у вас низкое препятствие, то никто не удивится, если вы сможете успешно договориться об этом. Однако, если у вас есть небольшое препятствие, но вы все еще не можете преодолеть это, это вам кое- что говорит. Как я уже неоднократно говорил, отклонение нуля не означает, что H1 является истинным, поэтому отклонение H0 не означает, что определенно есть пауза, это не говорит вам, почему произошла пауза. Но если вы не можете преодолеть препятствие возможности отклонить H0, это говорит о том, что, возможно, недостаточно доказательств для утверждения H1 как факта (что и происходит в данном случае).
Дикран Marsupial
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.