Стратегии внедрения расширенной статистики в различные аудитории


26

Я работаю в основном с не статистиками в таких областях, как медицина, социальные науки и образование.

Независимо от того, консультируюсь ли я с аспирантами, помогаю исследователям со статьями или рецензирую статьи для журналов, я часто сталкиваюсь с проблемой, что кто-то (клиент, автор, диссертационный комитет, редактор журнала) хочет использовать какую-то относительно известную технику, когда она либо полностью неуместно или когда существуют лучшие, но менее известные методы. Часто я объясняю альтернативную технику, но потом мне говорят, что «все делают по-другому».

Мне было бы интересно узнать, как другие справляются с подобными трудностями.

ДОПОЛНЕНИЯ

@MichaelChernick предложил мне поделиться некоторыми историями, так что я буду

В настоящее время я работаю с одним человеком, который дублирует предыдущую статью и добавляет одну независимую переменную, чтобы посмотреть, поможет ли это. Честно говоря, предыдущая статья ужасна. Он обрабатывает зависимые данные, как если бы они были независимыми; это чрезвычайно переодевание и есть и другие проблемы. Тем не менее, он (мой клиент) представил более раннюю версию в качестве диссертации и не только получил свою степень, но и получил высокую оценку за исследования.

Много раз я пытался убедить людей не разбирать переменные. Это очень часто встречается в медицине. Я терпеливо отмечаю, что дихотомизация (скажем) веса при рождении до низкого и нормального (обычно 2500 г) означает лечение 2499 г ребенка как 1400 г; но лечить ребенка весом 2,501 грамм совсем по-другому. Врач согласен со мной, что это глупо. Затем говорит сделать это так.

У меня был клиент аспиранта, чей комитет настаивал на кластерном анализе. Студент не понимал метод, метод не отвечал на полезные вопросы, но это то, что хотел комитет, вот что он получил.

Вся область статистической графики - это та область, в которой многим достаточно «вот как дедушка это сделал».

Тогда есть люди, которые, кажется, просто нажимают кнопки. Я помню одну презентацию (не кем-то, кому я помог!), Который взял всю анкету и проанализировал ее. Одной из переменных, которые она включила, был номер ID!

Oy.


6
Питер, Мета для вопросов об этом сайте. Я подозреваю, что вы, возможно, думали о статусе "Community Wiki", который предназначен для полезных, интересных вопросов, которые вряд ли будут иметь объективно лучший ответ (или на которые, вероятно, потребуются совместные усилия, чтобы ответить вообще). Соответственно, я интерпретировал ваше предложение как запрос CW и реализовал его.
whuber

1
Небольшая заметка о дихотомизации: я на самом деле думаю, что это неуместная интуиция от людей, которые знают «немного» статистики. В тех областях, о которых вы говорите, я бы предположил, что большой анализ будет направлен на принятие решений (например, должен ли я начать лечение от болезни X или Y?). Это дихотомия - и часто полезная дихотомия. Если у вас есть только небольшое количество переменных, тогда надлежащий анализ решений или проверка гипотез вполне может имитировать это - у нас может быть «если x> 10, выберите вариант 1, в противном случае - вариант 2».
вероятностная

1
Кроме того, анализ, основанный на дихотомических переменных, очень легко запомнить, если у вас нет доступа к компьютеру.
вероятностная

2
В психологии люди часто дихотомизируют или определяют, потому что они используют ANOVA, а не регрессию. Это сводит меня с ума. Где-то в вики-статистике Вандербильта biostat.mc.vanderbilt.edu/wiki/Main есть блестящая демонстрация ужасного урона, нанесенного дихотомизацией. Но я не могу найти это, к сожалению. Я думаю, что это там, во всяком случае. Должен был Evernoted, когда у меня был шанс
Крис Били

2
Исходя из моего ограниченного опыта в страховой отрасли, я обнаружил, что, как только конкретная прогнозирующая модель была разработана, она начинает жить самостоятельно и будет дублироваться (возможно, с обновленными коэффициентами) в течение многих лет, даже после того, как модель стала устареть. Например, модернизация старой модели, которая устанавливает ставки полисов медицинского страхования, является большой проблемой, поскольку ставки некоторых людей могут внезапно подскочить, новую модель придется обосновать регулирующим органам и т. Д.
RobertF

Ответы:


16

Это сложный вопрос!

Сначала несколько мыслей о том, почему это происходит. Я работаю в области, которая (или, по крайней мере, должна ) широко использовать статистику, но где большинство практиков не являются статистическими экспертами. Следовательно, многие видят: «Я поместил вектор в функцию t-критерия Excel, и это число выпало. Поэтому моя статья поддерживается статистикой».

Основная причина, по которой я это вижу, заключается в том, что недостаток знаний в области статистики начинается на вершине. Если ваши рецензенты и диссертационный комитет не следят за статистическими методами, вам нужно оправдать использование чего-либо «нетрадиционного». Например, в дипломной работе я решил использовать графики для скрипки вместо рамок для отображения формы распределения. Использование этого метода потребовало обширной документации в диссертации, а также продолжительного обсуждения в мою защиту, где все члены комитета хотели знать, что означает этот странный сюжет, несмотря на описания в тексте и ссылки на исходный материал , Если бы я только использовал коробочный сюжет (который показывает строго меньше информация в этом случае и может легко обмануть зрителя о форме дистрибутива, если он мультимодальный) никто бы ничего не сказал, и моя защита была бы проще.

Дело в том, что в областях, не связанных со статистикой, перед практикующими стоит трудный выбор: мы можем прочитать и затем использовать правильные методы, что влечет за собой кучу работы, в которой ни один из наших высших должностных лиц не заинтересован; или мы можем просто плыть по течению, получать штампы на наших работах и ​​тезисах и продолжать использовать неправильные, но традиционные методы.

Теперь, чтобы ответить на ваш вопрос:

Я думаю, что хороший подход состоит в том, чтобы подчеркнуть последствия отказа от использования правильных методов. Это может повлечь за собой:

  • Дать реальный пример того, как кто-то в своей области испытал последствия плохого умозаключения. В некоторых областях это проще, чем в других. Примеры, где карьеры были повреждены, особенно хороши.

  • Объяснение того, что неправильный анализ может привести к тому, что ваши результаты вряд ли будут перенесены в реальный мир, что может нанести вред (например, в моей области, если прототип вашей системы ИИ выглядит статистически лучше, чем у конкурентов, но на самом деле это то же самое, тогда потратить следующие 6 месяцев на создание полной реализации - действительно плохая идея.

  • Выберите методы, которые сэкономят пользователям много времени. Достаточно времени, чтобы они могли потратить то, что сэкономили, объясняя техники вышестоящим людям.


1
Хорошее обсуждение и хороший ответ +1.
Майкл Р. Черник


1
+1 за указание на последствия. Он может творить чудеса, заставляя людей переключаться на лучшие методы.
Лев

9

Говоря с точки зрения психолога с небольшой статистической изощренностью: когда вы вводите метод, также вводите инструменты. Если вы расскажете большинству исследователей в моей области длинную историю об отличном новом методе, они будут все время беспокоиться о том, что изюминка ", и все, что вам нужно сделать, это освежить свое дифференциальное исчисление и затем взять два недельный учебный курс! (или «и купите пакет статистики за 2000 $!» или «и адаптируйте 5000 строк кода Python и R!»). Принимая во внимание, что если есть реализация метода, доступного в пакете статистики, который они уже используют, или в бесплатном программном обеспечении с понятным графическим интерфейсом, и они могут ускорить его через день или два, они могут быть готовы дать это попытка.

Я знаю, что этот подход может показаться продажным и ненаучным, но людям легко впасть, когда они беспокоятся о грантах и ​​публикациях, и не считают, что изучение огромного количества математики может помочь им сохранить свою работу.


2
@octem Не мог ли исследователь доверить статистику выполнение этой части совместной работы. Зачем следователю инструмент? Я сравниваю это с врачом, чтобы поменять местами таблицы. Что бы он чувствовал, если бы я сказал, дайте мне краткое руководство о том, как сделать эту операцию, и я сделаю это для вас. Я думаю, что шок и dsimay, и это незаконно для меня, чтобы практиковать медикаментозное лечение без лицензии. Это, наверное, хорошая вещь. Но разве статистик не заслуживает равного уважения. Зачем ожидать, что я могу просто дать ему инструмент и позволить ему покончить с отсутствием обучения.
Майкл Р. Черник

2
В социальной психологии не принято иметь статистики (потому что обычно не хватает средств для оплаты статистики). Сейчас я в общественном здоровье / психология здоровья. Большие гранты обычно включают в себя зарплату статистику, но большая часть нашей работы выполняется на маленьких скупых пилотных грантах, где мы даже не можем позволить себе зарплату для ИП. Это точка зрения, из которой я исхожу ... если вы находитесь в области, где большинство проектов включают в себя подготовленных статистиков, тогда я согласен, что такое сопротивление не будет разумным.
octern

1
@octem Спасибо за ответ. Просто чтобы продолжить аналогию. Было время, когда аборт был запрещен в США, и некоторые женщины ездили в другие страны или делали это нелегально в подсобном помещении без стерильных условий и большого риска для здоровья. Может показаться, что это не очень хорошая аналогия, но неспособность предоставить статистику оправдывает низкую работу? Я знаю, что медицина - это скорее жизнь или смерть, но плохая наука тоже имеет плохие последствия? Неправильное использование данных может привести к неправильному лечению, потому что небезопасное лекарство используется тогда, когда этого не должно быть.
Майкл Р. Черник

@MichaelChernick Послушайте, меня тоже не устраивает состояние статистического анализа в социальных науках. Но вопрос заключался в том, как заставить исследователей принять новый статистический подход, и я даю ответ, который подходит для большой группы исследователей - нравится нам это или нет.
octern

1
@octem Справедливо, и я думаю, что понял это. Я дал вам голос, прежде чем я задал вопрос. Я расспрашиваю о том, что следователи думают, что это дешевый путь, а не факт, что вы понимаете, что проблема существует. Так и есть, и я согласен с вами там. Но почему-то в долгосрочной перспективе я думаю, что нам просто нужно больше уважения и признания, что наша работа не тривиальна.
Майкл Р. Черник

6

Спасибо за этот хороший вопрос, Питер. Я работаю в медицинском исследовательском институте и имею дело с врачами, которые занимаются исследованиями и публикуются в медицинских журналах. Часто они больше заинтересованы в том, чтобы публиковать свои статьи, чем «делать статистику полностью правильно». Поэтому, когда я предлагаю незнакомую технику, они указывают на похожую статью и говорят: «Смотри, они сделали это так и опубликовали свои результаты».

Я думаю, что есть проблема, когда опубликованная статья действительно плохая и имеет ошибки. Сложно спорить, хотя у меня отличная репутация. Некоторые документы имеют большое эго и думают, что они могут выучить почти все. Поэтому они думают, что понимают статистику, когда не знают и могут быть настойчивыми. Это может расстраивать. Когда он проходит тестирование и Уилкоксон более уместен, я заставляю их делать тест Уилка Шапиро, и если нормальность отклоняется, мы включаем оба метода и объясняем, почему Уилкоксон лучше. Иногда я могу убедить их, и часто они зависят от меня в статистике, поэтому у меня есть немного больше влияния, чем может быть у генерального консультанта.

Я также столкнулся с ситуацией, когда я сделал для них кривые Каплана-Мейера, и мы использовали тест рангов, но Уилкоксон дал другой результат. Мне было трудно принять решение, и в таких ситуациях я думаю, что лучше всего представить оба метода и объяснить, почему они различаются. То же самое касается использования доверительных интервалов Пето против Гринвуда для кривой выживания. Объяснение предположения об опасности доли Кокса может быть трудным, и они часто неверно истолковывают отношения шансов и относительный риск.

Там нет простого ответа. У меня здесь был начальник, который был ведущим медицинским исследователем в области кардиологии, и он иногда рецензировал журналы. Он смотрел на документ, который имел дело с диагнозом и использовал AUC в качестве меры. Он никогда раньше не видел кривую AUC и пришел ко мне, чтобы посмотреть, считаю ли я ее действительной. У него были сомнения. Это оказалось уместным, и я объяснил ему, как мог.

Я пытался читать лекции по биостатистике для врачей и преподавал биостатистику в школах общественного здравоохранения. Я стараюсь сделать это лучше, чем другие, и в 2002 году выпустил книгу для вводного курса по специальностям здравоохранения, соавтором которой является эпидемиолог. Вайли хочет, чтобы я выпустил второе издание. В 2011 году я опубликовал более лаконичную книгу, в которой я постарался охватить только самое необходимое, чтобы занятые МД могли потратить время на то, чтобы пересмотреть ее и сослаться на нее. Вот как я с этим справляюсь. Может быть, вы можете поделиться своими историями с нами.


Это хорошие моменты @ Майкл. Я добавлю несколько историй
Питер Флом - Восстановить Монику

1
@PeterFlom Думаю, у нас может быть очень похожий опыт. Я также думаю, что вы получаете некоторые другие очень хорошие ответы в ответах других людей.
Майкл Р. Черник

6

log(x); x(1,2)? 


За свою карьеру я провел много междисциплинарных исследований, и в разное время мне приходилось тесно сотрудничать с исследователями токсикомании, эпидемиологами, биологами, криминологами и врачами. Как правило, это включало анализ данных, при котором обычные «консервированные» подходы не выполнялись по разным причинам (например, некоторая комбинация смещенной выборки и кластерных, продольно и / или пространственно индексированных данных). Я также провел пару лет, консультируя неполный рабочий день в аспирантуре, где я работал с людьми из самых разных областей. Итак, мне пришлось много думать об этом.

Мой опыт показывает, что самое главное - объяснить, почему обычные консервированные подходы неуместны и апеллируют к желанию человека заниматься «хорошей наукой». Ни один уважаемый исследователь не хочет публиковать что-то, что явно вводит в заблуждение в его выводах из-за неуместного статистического анализа. Я никогда не сталкивался с кем-то, кто говорил что-то вроде: «Мне все равно, правильный анализ или нет, я просто хочу опубликовать это», хотя я уверен, что такие люди существуют - мой ответ будет прекратить профессиональные отношения, если это вообще возможно. Как статистик, моя репутация может пострадать, если кто-то, кто на самом деле знает, о чем идет речь, прочитает газету.

Я признаю, что может быть сложно убедить кого-либо в том, что конкретный анализ неуместен, но я думаю, что как статистики мы должны (а) обладать знаниями, необходимыми для точного понимания того, что может пойти не так с «консервированным» подходом, и (б) иметь умение объяснить это разумно приемлемым способом. Если вы не работаете в качестве преподавателя статистики или математики, часть вашей работы будет заключаться в том, чтобы работать с не статистиками (и даже иногда, если вы являетесь профессором статистики / математики).

Что касается (а) , если статистик не обладает этими знаниями, почему они не одобряют постоянный подход? Если статистик говорит «использовать модели случайных эффектов», но не может объяснить, почему допущение независимости является проблемой, то разве они не виновны в том, что поддавались догме так же, как клиент? Любой рецензент, статистик или нет, может сделать педантичную критику подхода статистического моделирования, потому что, давайте посмотрим правде в глаза - все модели ошибочны. Но это требует опыта, чтобы точно знать, что может пойти не так.

Что касается (б) , я обнаружил, что графическое изображение того, что может пойти не так, как правило, «ударил домой» больше всего. Примеры:

  • x

  • y=xx(0,1)y=1x>1pxy

  • Другая распространенная ситуация (также упоминаемая Питером) объясняет, почему принятие независимости - плохая идея. Например, вы можете показать на графике, что положительная автокорреляция обычно дает данные, которые являются более «кластеризованными», и по этой причине дисперсия будет недооцениваться, давая некоторое представление о том, почему наивные стандартные ошибки, как правило, слишком малы. Или вы можете также построить данные с подобранной кривой, которая предполагает независимость, и можно визуально увидеть, как кластеры влияют на подбор (эффективно уменьшая размер выборки) таким образом, который отсутствует в независимых данных.

Есть миллион других примеров, но я работаю с пространственно-временными ограничениями :) Когда картинки просто не подходят по какой-либо причине (например, показывают, почему один подход недостаточно силен), тогда примеры моделирования также являются вариантом, который я использовал время от времени.


3

Несколько случайных мыслей, потому что это сложный вопрос ...

Я чувствую, что большой проблемой является отсутствие математического образования в различных профессиональных дисциплинах и дипломных программах.

Без математического понимания статистики она становится набором формул, которые должны применяться в зависимости от ситуации.

Кроме того, чтобы получить реальное понимание вопроса, профессора должны рассказать об оригинальных проблемах, с которыми сталкивались авторы оригинала во время публикации своих подходов. Из этого можно узнать больше, чем прочитав тысячи книг на эту тему.

Статистика - это набор инструментов для решения проблем, но она также является искусством и сталкивается с теми же проблемами, что и любое другое искусство.

Можно научиться издавать звуки с помощью инструмента. Но будучи в состоянии«играя» на инструменте, человек не становится музыкантом.

Тем не менее, нередко можно встретить людей, которые считают себя музыкантами, не изучив единую концепцию ритма, мелодии и гармонии.

В той же строке, чтобы публиковать статьи, большинству людей не нужно ни знать, ни понимать концепции, лежащие в основе формулы ... в настоящее время ученым просто нужно знать, на какую клавишу они нажимают и когда она должна быть нажата, точка.

Так что это не имеет ничего общего с «эго» МД. Это субкультурная проблема, проблема, в большей степени связанная с образованием, обычаями и ценностями научного сообщества.

Чего можно ожидать в эпоху, когда будут опубликованы тысячи, тысячи и тысячи бесполезных статей и книг для выполнения некоторых академических требований / политики? В эпоху, когда количество публикуемых бумаг важнее их качества?

Ученые мейнстрима больше не беспокоятся о хорошей науке. Они рабы чисел. Они подвержены (или заражены) административной ошибкой нашей эпохи ...

Так что, с моей точки зрения, хороший курс статистики должен включать математическую, историческую и философскую основу изучаемого подхода, всегда выделяя несколько путей, которые можно принять для решения одной проблемы.

Наконец, если бы я был профессором статистики / вероятности, моя первая лекция была бы посвящена таким проблемам, кактасование карт или подбрасывание монеты . Это поставит аудиторию в правильное положение для прослушивания ... вероятно.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.