При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете.
Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту настолько хорошо документировано, что мы принимаем это как должное. Другой пример, онлайн-сообщества - даже в сообществах с тысячами участников, хорошо задокументировано, что на сегодняшний день самая большая доля вклада / участия во многих из этих сообществ приходится на небольшую группу «супер-участников». (Например, несколько месяцев назад, сразу после того, как API SO стал доступен в бета-версии, участник StackOverflow опубликовал краткий анализ данных, собранных им через API; его вывод - менее одного процента членов SO составляют большую часть деятельность на SO (предположительно задавая вопросы и отвечая на них), остальные 1-2% приходятся на остальных, и подавляющее большинство членов ничего не делают).
Распределения такого рода - опять-таки чаще всего правило, а не исключение - часто лучше всего моделировать с помощью функции плотности степенного закона . Для таких распределений проблематично применять даже центральную предельную теорему.
Поэтому, учитывая обилие таких популяций, которые представляют интерес для аналитиков, и учитывая, что классические модели демонстрируют явно плохие результаты на этих данных, а также учитывая, что надежные и устойчивые методы существуют уже некоторое время (я полагаю, по крайней мере, 20 лет) - почему они не используются чаще? (Мне также интересно, почему я не использую их чаще, но это не совсем вопрос для CrossValidated .)
Да я знаю , что есть учебник глава , посвященный исключительно надежная статистика и я знаю , что есть (несколько) R пакеты ( robustbase это один я знаком и использовать), и т.д.
И все же, учитывая очевидные преимущества этих методов, они часто являются лучшими инструментами для работы - почему они не используются гораздо чаще ? Разве мы не должны ожидать, что надежная (и устойчивая) статистика будет использоваться гораздо чаще (возможно, даже предположительно) по сравнению с классическими аналогами?
Единственное существенное (то есть, техническое) объяснение, которое я слышал, состоит в том, что надежные методы (также как и устойчивые методы) не обладают силой / чувствительностью классических методов. Я не знаю, правда ли это в некоторых случаях, но я знаю, что это не так во многих случаях.
Последнее слово с упреждением: да, я знаю, что у этого вопроса нет ни одного явно правильного ответа; очень мало вопросов на этом сайте. Более того, этот вопрос является подлинным вопросом; это не повод выдвигать точку зрения - у меня нет этой точки зрения, просто вопрос, на который я надеюсь получить несколько проницательных ответов.