Примеры дорогостоящих последствий неправильного использования статистических инструментов


12

Я подозреваю, что большинство пользователей статистических инструментов являются вспомогательными пользователями (люди, которые практически не имели формального обучения статистике). Для исследователей и других специалистов очень заманчиво применять статистические методы к своим данным просто потому, что они видели, как они «делали это раньше» в рецензируемых статьях, серой литературе, в Интернете или на конференции. Тем не менее, выполнение этого без четкого понимания требуемых допущений и ограничений статистического инструмента может привести к ошибочным результатам - ошибки часто не признаются!

Я считаю, что студенты (особенно в области социальных и естественных наук) либо не знают о статистических ловушках, либо считают эти ловушки несущественными (последние чаще всего встречаются). Хотя примеры ненадлежащего использования статистических инструментов можно найти во многих учебниках начального уровня, в Интернете или в StackExchange, мне трудно найти примеры из реальной жизни, которые привели к пагубным результатам (например, стоимость в $, влияние на жизнь и потеря карьеры) , С этой целью я ищу реальные примеры, которые подчеркивают злоупотребление статистическими методами, для которых:

  1. используемые статистические методы обычно охватываются курсами вводной статистики (например, логическая статистика, регрессия и т. д.)
  2. конечный результат повлек за собой дорогостоящие последствия (потерянные доллары, влияние на жизнь, разрушение карьеры и т. д.)
  3. эти данные легко доступны для использования в качестве рабочих примеров в курсе (цель состоит в том, чтобы студенты работают через реальные примеры , которые имели реальные последствия мира.)

Один нестатистический пример, который я хотел бы привести студентам при обсуждении важности правильного определения единиц в исследовательском проекте, - это «метрическая ошибка», которая привела к потере спутника стоимостью 125 миллионов долларов! Обычно это вызывает: -o фактор от студентов и, кажется, производит неизгладимое впечатление (по крайней мере, в течение их короткой академической жизни).


2
Еще один нестатистический пример от Эдварда Туфте, Powerpoint делает Rocket Science . Хотя это более тесно связано с логическим развитием статистического мышления в целом, чем с метрической ошибкой, о которой вы упомянули. Также знакомы ли вы с этой книгой «Культ статистической значимости» ?
Энди W

@ AndyW, я не знаком с «Культом статистической значимости». Знаете ли вы, что элементы 2 / и 3 ​​/ в моем вопросе рассматриваются в этой книге?
MannyG

Я не знаю о 3, но если вы прочитаете рецензию на книгу, на которую я ссылаюсь, вы ответите на ваш вопрос 2 (или прочитаете оставшееся название книги!). для интерпретации значимости тестов.
Энди W

@ AndyW, это та самая книга, которую я собирался упомянуть.
Питер Флом - Восстановить Монику

@ AndyW, хотя ссылка, на которую вы ссылаетесь, ссылается на один из реальных примеров неправильного использования статистики в книге, мне не ясно, учитываются ли косвенные затраты. Если в книге рассматриваются косвенные затраты, основаны ли они на независимом анализе или на субъективном мнении авторов?
MannyG

Ответы:


8

Я не уверен в наличии данных, но хорошим (если это правильное слово) примером плохой статистики является исследование Гарвардской медсестры об эффективности гормонозаместительной терапии (ЗГТ) у женщин в менопаузе.

Какова общая идея? Исследование медсестер показало, что ЗГТ полезна для женщин в постменопаузе. Оказывается, этот результат возник, потому что контрольная группа сильно отличалась от группы лечения, и эти различия не были учтены в анализе. В последующих рандомизированных исследованиях ЗГТ была связана с раком, сердечным приступом, инсультом и тромбами. С соответствующими исправлениями исследование медсестер также раскрывает эти закономерности.

Я не могу найти оценки смертности в США, связанной с ЗГТ, но величина была десятки тысяч. Одна статья связывает 1000 смертей в Великобритании с HRT.

Эта статья в New York Times Magazine предоставляет хорошую статистическую информацию о проблемах, присутствующих в исследовании.

В этом выпуске Американского журнала эпидемиологии есть академическая дискуссия . В статьях сравниваются результаты исследования наблюдательных медсестер с инициативой «Здоровье женщин», основанной на рандомизированных исследованиях.

Существует также обсуждение (многими из тех же самых людей) в проблеме Биометрии См. Комментарий Freedman и Petitti в частности [ версия перед публикацией ].


1
Я бы поспорил против использования этого примера на самом деле. С 2005 года было проделано больше работы, особенно Мигелем Эрнаном, см. Наблюдательные исследования, проанализированные как рандомизированные эксперименты: приложение к постменопаузальной гормональной терапии и ишемической болезни сердца , эпидемиология (2008). Вывод: «Таким образом, наши выводы позволяют предположить, что расхождения между оценками ИВТ WHI и NHS могут быть в значительной степени объяснены различиями в распределении времени после менопаузы и продолжительности наблюдения. Остаточное искажение для эффекта начала терапии в NHS, кажется, играет небольшую роль ".
Fomite

Независимо от того, что вы чувствуете по поводу упомянутых исследований, различия между ними сложнее и сложнее, чем то, что, вероятно, полезно в предлагаемой настройке ФП.
Fomite

@EpiGrad, это, конечно, не моя сфера деятельности, и я уверен, что вы знаете больше об этом конкретном примере, чем я. Но я думаю, что статья, которую вы цитируете, делает то же самое, что и другие. В статье OSALRE они исключают женщин из исследования NHS, которые не соответствуют критериям исследования WHI. Доля выброшенных женщин должна варьироваться в зависимости от групп лечения и контроля NHS (иначе результаты не изменятся). Таким образом, они устраняют проблему выбора, найденную в исследовании NHS. [[Продолжение]]
Чарли

1
Бумага, которая мне понравилась, предлагает, по крайней мере для меня, что-то более похожее на «Убедитесь, что вы задаете тот же вопрос», а не проблему откровенного смешения. Не поймите меня неправильно, вопрос NHS / WHI чрезвычайно интересен как вопрос статистики и практики общественного здравоохранения. Это просто сложнее, чем кажется из первоначальных разногласий, и я думаю, что это делает его несколько неуместным для пункта 1 запроса ФП. Точка 3 тоже прямо.
Fomite

2
@EpiGrad, достаточно справедливо. Но я серьезно сомневаюсь, что вы найдете исследование с явной статистической ошибкой, которое не требует каких-либо копаний, чтобы понять, что имело серьезные и существенные последствия. Возможно, другие респонденты убьют мой оптимизм в отношении исследователей (хех).
Чарли

8

Прекрасный исторический пример дает опубликованная в 1933 году « Триумф посредственности в бизнесе» Горация Секрета . В то время Секрист был известным статистиком, автором учебника (помню, 1919 г.), хорошо связан с Американской статистической ассоциацией и руководителем группы статистических исследований в Северо-Западном университете. Он и его сотрудники провели предыдущее десятилетие, составляя временные ряды бизнес-данных, которые воспроизводятся и тщательно анализируются в книге. Он должен был стать шеф-поваром амбициозной статистики.

Рецензия Гарольда Хотеллинга на книгу, которая появилась в JASA позднее в том же году, указала, что Secrist просто задокументировала сотни примеров регрессии к среднему (фундаментальная тема в любом вводном курсе статистики сегодня, пункт № 1 вопроса). Секретарь возражал в опубликованном ответе. Ответ Хотеллинга на это является классическим:

«Доказать» такой математический результат дорогостоящим и длительным численным исследованием ... это то же самое, что доказать таблицу умножения, упорядочив слонов по строкам и столбцам, а затем сделав то же самое для множества других видов животных. Представление, хотя, возможно, и занимательное, и имеет определенную педагогическую ценность, не является важным вкладом ни в зоологию, ни в математику.

[JASA v. 29 # 186, июнь 1934 г., с. 199.]

Вскоре после этого Secrist быстро сошел со статистической сцены («карьера разрушена», пункт № 2 в вопросе). Его книга все еще доступна. (Несколько лет назад я получил хорошую чистую копию, очевидно, мало читаемую через Межбиблиотечный абонемент.) Из нее вы можете извлечь любое количество примеров наборов данных (пункт № 3 вопроса).

Стивен Стиглер рассказывает эту историю в книге и газете «История статистики в 1933 году» .


4

Мне кажется, что взятие Wired на кризис фондового рынка 2008 года может быть информативным примером. Не могу прокомментировать, верны ли его выводы или нет, но идея использования корреляций по данным, которые не являются репрезентативной выборкой, кажется чем-то, что может соответствовать вашим предложенным обстоятельствам. Это также актуально, и поэтому может заинтересовать их.


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.