Почему надежная (и устойчивая) статистика не заменила классические методы?


82

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете.

Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту настолько хорошо документировано, что мы принимаем это как должное. Другой пример, онлайн-сообщества - даже в сообществах с тысячами участников, хорошо задокументировано, что на сегодняшний день самая большая доля вклада / участия во многих из этих сообществ приходится на небольшую группу «супер-участников». (Например, несколько месяцев назад, сразу после того, как API SO стал доступен в бета-версии, участник StackOverflow опубликовал краткий анализ данных, собранных им через API; его вывод - менее одного процента членов SO составляют большую часть деятельность на SO (предположительно задавая вопросы и отвечая на них), остальные 1-2% приходятся на остальных, и подавляющее большинство членов ничего не делают).

Распределения такого рода - опять-таки чаще всего правило, а не исключение - часто лучше всего моделировать с помощью функции плотности степенного закона . Для таких распределений проблематично применять даже центральную предельную теорему.

Поэтому, учитывая обилие таких популяций, которые представляют интерес для аналитиков, и учитывая, что классические модели демонстрируют явно плохие результаты на этих данных, а также учитывая, что надежные и устойчивые методы существуют уже некоторое время (я полагаю, по крайней мере, 20 лет) - почему они не используются чаще? (Мне также интересно, почему я не использую их чаще, но это не совсем вопрос для CrossValidated .)

Да я знаю , что есть учебник глава , посвященный исключительно надежная статистика и я знаю , что есть (несколько) R пакеты ( robustbase это один я знаком и использовать), и т.д.

И все же, учитывая очевидные преимущества этих методов, они часто являются лучшими инструментами для работы - почему они не используются гораздо чаще ? Разве мы не должны ожидать, что надежная (и устойчивая) статистика будет использоваться гораздо чаще (возможно, даже предположительно) по сравнению с классическими аналогами?

Единственное существенное (то есть, техническое) объяснение, которое я слышал, состоит в том, что надежные методы (также как и устойчивые методы) не обладают силой / чувствительностью классических методов. Я не знаю, правда ли это в некоторых случаях, но я знаю, что это не так во многих случаях.

Последнее слово с упреждением: да, я знаю, что у этого вопроса нет ни одного явно правильного ответа; очень мало вопросов на этом сайте. Более того, этот вопрос является подлинным вопросом; это не повод выдвигать точку зрения - у меня нет этой точки зрения, просто вопрос, на который я надеюсь получить несколько проницательных ответов.


12
«Черный лебедь» Нассима Николаса Талеба объясняет, почему в финансовом мире используются простые модели, и к каким опасностям это привело. Особая ошибка - приравнивание очень низких вероятностей к нулю и слепое применение нормального распределения в управлении рисками!
Джеймс

9
Тесты, основанные на многих предположениях, становятся более эффективными, когда эти предположения удовлетворяются. Мы можем проверить значимость отклонения, предполагая, что наблюдения являются IID гауссовским, что дает среднее значение в виде статистики. Менее ограниченный набор предположений подсказывает нам использовать медиану. Мы можем пойти дальше и предположить, что наблюдения взаимосвязаны, чтобы получить еще большую надежность. Но каждый шаг уменьшает мощность нашего теста, и если мы не делаем никаких предположений, наш тест бесполезен. Надежные тесты неявно делают предположения о данных и лучше, чем классические, только когда эти предположения лучше соответствуют реальности
Ярослав Булатов

Ответы:


69

Исследователи хотят малых значений p, и вы можете получить меньшие значения p, если используете методы, которые делают более строгие предположения о распределении. Другими словами, ненадежные методы позволяют вам публиковать больше статей. Конечно, многие из этих работ могут быть ложными срабатываниями, но публикация - это публикация. Это циничное объяснение, но иногда оно действительно.


4
«иногда» - преуменьшение ... логика авторов не всегда так прямолинейна, но сценарий стимулирования / вознаграждения таков, что люди будут делать это в качестве обусловленности
Джон

2
Я не исследователи настолько нечестны, как действующие из-за невежества. Они не понимают, что означают статистические данные или какие предположения им требуются, но, как вы сказали, они четко понимают стимул / вознаграждение: p> 0,05 => нет публикации.
Джон Д. Кук

10
Вы также должны представить то, что понимают «находящиеся у власти» (лица, принимающие решения, руководители, рецензенты). Поэтому он должен быть на общем языке, который развивается довольно медленно, так как эти люди, как правило, старше и более устойчивы к изменениям, в значительной степени потому, что это может сделать их карьеру недействительной до сих пор!
Джеймс

12
Хорошая точка зрения. «Я понимаю р-значения. Просто дайте мне р-значение». По иронии судьбы, они, вероятно, не понимают p-значения, но это другое дело.
Джон Д. Кук

2
Я не верю, что это категорически верно. По крайней мере, я слышал, что современные непараметрики часто жертвуют очень маленькой силой, если таковые вообще имеются. AFAIK, потеря мощности наиболее выражена в тестах, включающих ранговые преобразования, которые едва ли повсеместны среди надежных методов.
Ник Стаунер

42

Таким образом, «классические модели» (какими бы они ни были - я предполагаю, что вы имеете в виду что-то вроде простых моделей, которые преподаются в учебниках и оцениваются ML), терпят неудачу в некоторых, возможно многих, наборах данных реального мира.

Если модель дает сбой, есть два основных подхода к ее исправлению:

  1. Делайте меньше предположений (меньше модели)
  2. Сделайте больше предположений (больше модели)

Надежные статистические, квази-правдоподобные и GEE-подходы выбирают первый подход, меняя стратегию оценки на подход, при котором модель не подходит для всех точек данных (надежная) или не требует характеристики всех аспектов данных (QL и GEE).

Альтернатива состоит в том, чтобы попытаться создать модель, которая явно моделирует источник загрязняющих точек данных или аспекты исходной модели, которые кажутся ложными, сохраняя метод оценки таким же, как и раньше.

Некоторые интуитивно предпочитают первое (это особенно популярно в экономике), а некоторые интуитивно предпочитают второе (это особенно популярно среди байесов, которые, как правило, довольны более сложными моделями, особенно когда они понимают, что им придется использовать инструменты моделирования для вывод в любом случае).

Распределенные предположения с жирным хвостом, например, использующие отрицательный бином, а не пуассон или т, а не нормальный, принадлежат ко второй стратегии. Большинство вещей, помеченных как «надежная статистика», относятся к первой стратегии.

С практической точки зрения, получение оценок для первой стратегии для реально сложных проблем кажется довольно сложным. Не то, чтобы это была причина не делать этого, но, возможно, это объяснение того, почему это делается не очень часто.


4
+1. Очень хорошее объяснение. Я также думаю, что некоторые «надежные» методы являются скорее специальными (усеченными), и что «надежные» связаны с определенным аспектом метода и не являются общим качеством, но многие люди интерпретируют «надежные» как «я не знаю». не беспокойтесь о моих данных, так как мой метод надежен ".
Уэйн

Отличный ответ. Меня беспокоит, что так много ответов касаются сложности понимания надежных статистических данных или стимулов игнорировать нарушение допущений. Они игнорируют людей, которые знают, что есть случаи, когда нужны надежные статистические данные, а когда нет.
Кендзи

29

Я бы предположил, что это отставание в обучении. Большинство людей изучают статистику в колледже или университете. Если статистика не является вашей первой степенью, а вместо этого вы получили степень по математике или информатике, то вы, вероятно, охватывает только основные статистические модули:

  1. Вероятность
  2. Проверка гипотезы
  3. регрессия

Это означает, что когда вы сталкиваетесь с проблемой, вы пытаетесь использовать то, что знаете, для решения проблемы.

  • Данные не нормальные - возьмите логи.
  • Данные имеют раздражающие выбросы - удалите их.

Если вы не наткнетесь на что-то другое, тогда трудно сделать что-то лучше. С помощью Google очень сложно найти что-то, если вы не знаете, как это называется!

Я думаю, что для всех техник потребуется некоторое время, прежде чем новые техники отфильтруют. Сколько времени понадобилось, чтобы стандартные тесты гипотез стали частью стандартной учебной программы по статистике?

Кстати, со степенью статистики будет все еще отставание в обучении - только короче!


4
Но это поднимает интересную педагогическую проблему, по крайней мере, в области психологии, потому что, насколько я знаю, большинство вводных книг по статистике, используемых в моей области, на самом деле не обсуждают надежные меры, кроме как в стороне.
Расселпирс

3
Это очень верно, а также в психологии существует раздражающая путаница между непараметрическим и ненормальным, что, кажется, мешает пониманию.
richiemorrisroe

2
Некоторые из нас, психологов, просто запутались во всем статистическом! :)
Ник Стаунер,

21

Любой, кто обучен статистическому анализу данных на разумном уровне, регулярно использует концепции надежной статистики. Большинство исследователей знают достаточно, чтобы искать серьезные выбросы и ошибки записи данных; Политика удаления подозрительных точек данных восходит к 19 веку с лордом Рэлеем, Г.Г. Стоуксом и другими людьми их возраста. Если вопрос:

Почему исследователи не используют более современные методы для вычисления местоположения, масштаба, регрессии и т. Д. Оценок?

затем ответ дается выше - методы были в значительной степени разработаны за последние 25 лет, скажем, 1985–2010 гг. Отставание в изучении новых методов учитывает факторы, а также инерцию, усугубляемую «мифом», что в этом нет ничего плохого слепо используя классические методы. Джон Тьюки отмечает, что неважно, какие именно надежные / устойчивые методы вы используете, важно то, что вы их используете. Совершенно правильно использовать как классические, так и надежные / устойчивые методы, и беспокоиться только тогда, когда они достаточно различаются, чтобы иметь значение. Но когда они отличаются , вы должны думать трудно .

Если вместо этого, вопрос:

Почему исследователи не останавливаются и не задают вопросы о своих данных вместо слепого применения крайне нестабильных оценок?

тогда ответ действительно сводится к обучению. Существует слишком много исследователей, которые никогда не были должным образом обучены статистике, что объясняется общей зависимостью от p-значений как основной и конечной цели «статистической значимости».

@Kwak: оценки Хубера 1970-х годов являются надежными, в классическом смысле этого слова: они противостоят выбросам. А возрастающие оценки на самом деле датируются задолго до 1980-х годов: исследование устойчивости Принстона (1971 г.) включало двухместную оценку местоположения, повторяющуюся оценку.


2
projecteuclid.org/… Свободно доступный документ, написанный Питером Хубером о вкладе Джона Тьюки в надежную статистику. Достаточно легко читать, свет на формул.
Уэсли Берр

20

Статистика - это инструмент для исследователей, не склонных к статистике, и им просто все равно.

Однажды я попытался помочь со статьей «Медицина», моей бывшей женой было соавторство. Я написал несколько страниц, описывающих данные, что они предлагали, почему определенные наблюдения были исключены из исследования ... и ведущий исследователь, доктор, выбросил все это и попросил кого-то вычислить p-значение, и это все, что она (и почти все, кто будет читать статью) заботились о.


12

Я даю ответ в двух направлениях:

  1. Надежные вещи не обязательно обозначены как прочные. Если вы верите, что устойчивость против всего существует, значит, вы наивны.
  2. Статистические подходы, которые оставляют проблему надежности, иногда не адаптированы к реальному миру, но часто более ценны (как концепция), чем алгоритм, похожий на кухню.

developpment

Во-первых, я думаю, что есть много хороших подходов в статистике (вы найдете их в R-пакетах, не обязательно где-то упомянутое о надежном), которые естественно надежны и проверены на реальных данных, и тот факт, что вы не найдете алгоритм с «надежным» упомянутое где-то не означает, что это не надежно. В любом случае, если вы думаете, что быть надежным означает быть универсальным, то вы никогда не найдете какой-либо надежной процедуры (без бесплатного обеда), вам необходимо иметь некоторые знания / опыт в отношении данных, которые вы анализируете, чтобы использовать адаптированный инструмент или создать адаптированную модель.

С другой стороны, некоторые подходы в статистике не являются надежными, поскольку они посвящены одному типу модели. Я думаю, что иногда хорошо работать в лаборатории, чтобы попытаться понять вещи. Также хорошо относиться к проблеме отдельно, чтобы понять, к какой проблеме относится наше решение ... так работает математик. Пример гауссовской модели elocant: так много критикуют, потому что гауссовское предположение никогда не выполняется, но принесло 75% идей, используемых сегодня практически в статистике. Вы действительно думаете, что все это связано с написанием бумаги, следуя правилу публикации или гибели (что мне не нравится, я согласен)?


11

Как кто-то, кто изучил немного статистики для моего собственного исследования, я предполагаю, что причины педагогические и инерционные.

Я заметил в своей области, что порядок, в котором преподаются темы, отражает историю области. Те идеи, которые пришли первыми, учат первыми и так далее. Для людей, которые изучают статистику только для кратких инструкций, это означает, что они сначала изучат классическую статистику, а, возможно, и последнюю. Тогда, даже если они узнают больше, классические вещи с палкой лучше с их эффектами первенства.

Кроме того, все знают, что такое t-критерий из двух примеров. Менее чем кто-либо знает, что такое тест Манна-Уитни или Уилкоксона. Это означает, что мне нужно приложить немного энергии, чтобы объяснить, что такое мой надежный тест, вместо того, чтобы выполнять какой-либо классический тест. Такие условия, очевидно, приведут к тому, что меньше людей будут использовать надежные методы, чем следует.


9

Вулдридж "Вводная эконометрика - современный подход" 2E с.261.

Если стандартные ошибки, устойчивые к гетероскедастичности, действительны чаще, чем обычные стандартные ошибки OLS, зачем нам вообще беспокоиться об обычных стандартных ошибках? ... Одна из причин, по которой они все еще используются в работе поперечного сечения, заключается в том, что, если выполняется предположение о гомоскедастичности и ошибки обычно распределяются, тогда обычная t-статистика имеет точное t-распределение независимо от размера выборки. Надежные стандартные ошибки и надежная t-статистика оправдываются только по мере увеличения размера выборки. При небольших размерах выборки надежная t-статистика может иметь распределения, которые не очень близки к t-распределению, и это может отбросить наш вывод. При больших размерах выборки мы можем всегда сообщать только о устойчивых к гетероскедастичности стандартных ошибках в приложениях поперечного сечения,


2
Плохие новости здесь: pan.oxfordjournals.org/content/23/2/159
конъюгатприор

7

Хотя они не являются взаимоисключающими, я думаю, что растущая популярность байесовской статистики является частью этого. Байесовская статистика может достигать многих тех же целей посредством априорных значений и усреднения моделей, и, как правило, на практике она немного более устойчива.


6

Я не статистика, мой опыт в статистике довольно ограничен, я просто использую надежную статистику в компьютерном зрении / 3D реконструкции / оценке поз. Вот мой взгляд на проблему с точки зрения пользователя:

Во-первых, надежная статистика широко использовалась в технике и науке, не называя ее «надежной статистикой». Многие люди используют его интуитивно, приходя к нему в процессе адаптации конкретного метода к реальной проблеме. Например, обычно используются итеративные пересчитанные наименьшие квадраты и усеченные средние / усеченные наименьшие квадраты, которые просто не знают, что пользователь использует надежную статистику - они просто делают метод работоспособным для реальных, не синтетических данных.

Во-вторых, как «интуитивная», так и сознательная робастная статистика практически всегда используется в случае, когда результаты поддаются проверке или когда существуют четко видимые показатели ошибок. Если результаты, полученные при нормальном распределении, явно недействительны или неправильны, люди начинают возиться с весами, усечением, выборкой, читают некоторые статьи и в конечном итоге используют надежные оценки, независимо от того, знают они термин или нет. С другой стороны, если конечный результат исследования - просто некоторые графики и диаграммы, и нет ничего нечувствительного для проверки результатов, или если нормальная статистика дает достаточно хорошие результаты - люди просто не беспокоятся.

И наконец, о полезности надежной статистики как теории - хотя сама теория очень интересна, она не часто дает какие-либо практические преимущества. Большинство надежных оценок довольно тривиальны и интуитивны, часто люди изобретают их заново без каких-либо статистических знаний. Теория, такая как оценка точки разбивки, асимптотика, глубина данных, разнородность данных и т. Д., Позволяет глубже понять данные, но в большинстве случаев это просто не нужно. Одно большое исключение - пересечение надежной статистики и компрессионного зондирования, которые производят некоторые новые практические методы, такие как «скрещивание и букет»


5

Мои знания о надежных оценках относятся исключительно к надежным стандартным ошибкам для параметров регрессии, поэтому мой комментарий будет касаться только этих. Я хотел бы предложить людям прочитать эту статью,

О так называемых «Оценщиках сэндвича Хубера» и «Обоснованных стандартных ошибках»: Фридман А. Дэвид. Американский статистик, вып. 60, № 4. (ноябрь 2006), с. 299-302. doi: 10.1198 / 000313006X152207 ( PDF версия )

Особенно меня беспокоит то, что эти подходы ошибочны, а просто отвлекают от более серьезных проблем. Таким образом, я полностью согласен с ответом Робина Жирара и его упоминанием о «бесплатном обеде».


3

Исчисление и вероятность, необходимые для надежной статистики, (обычно) сложнее, поэтому (а) теории меньше и (б) ее сложнее понять.


2

Я удивлен, увидев, что теорема Гаусса-Маркова не упоминается в этом длинном списке ответов, к сожалению:

В линейной модели со сферическими ошибками (которая включает в себя предположение об отсутствии выбросов через конечную дисперсию ошибок), OLS эффективен в классе линейных несмещенных оценок - существуют (безусловно, ограничивающие) условия, при которых " Вы не можете сделать лучше, чем OLS ".

Я не утверждаю, что это должно оправдывать использование OLS почти все время, но это, безусловно, способствует тому (особенно потому, что это хороший повод сосредоточиться на OLS при обучении).


Ну, да, но это предполагает, что минимизация дисперсии является релевантным критерием, а с тяжелыми хвостами это может быть не так!
kjetil b halvorsen

1
Конечно. Я просто хотел добавить, как мне кажется, наиболее известную причину, по которой OLS является полезным методом, в список понятных причин, по которым надежные методы не заменили его: бывают случаи, когда его не следует заменять.
Кристоф Ханк

0

Я предполагаю, что надежные статистические данные никогда не являются достаточными, т.е. чтобы быть надежными, эти статистические данные пропускают некоторую информацию о распределении. И я подозреваю, что это не всегда хорошо. Другими словами, существует компромисс между надежностью и потерей информации.

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})

1
См. Stats.stackexchange.com/questions/74113/… для ситуации, когда медиана очень хрупкая, а среднее очень хорошо себя ведет.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.