Каковы некоторые примеры анахронической практики в статистике?

55

Я имею в виду практики, которые все еще сохраняют свое присутствие, хотя проблемы (обычно вычислительные), с которыми они были разработаны, в основном были решены.

Например, коррекция непрерывности Йетса не была изобретена , чтобы аппроксимировать точный критерий Фишера с тестом, но это уже не практично , так как программное обеспечение может теперь обрабатывать тест Фишера даже большие выборки (я знаю , что это не может быть хорошим примером «поддержаний его присутствия ", так как учебники, такие как категориальный анализ данных Агрести , часто признают, что исправление Йейтса" больше не требуется "). $\chi^2$

Каковы некоторые другие примеры такой практики?

references philosophical

— Фрэнсис
источник

На самом деле я не уверен, что критерий хи-квадрат устарел из-за наличия вычислительной мощности для выполнения точного теста Фишера, например, действительно ли зафиксированы ваши предельные значения? Посмотрите этот ответ на другой вопрос , например, @gung. (Я почти уверен, что у нас есть ветка, в которой обсуждается проблема более подробно, но я не могу ее найти, поскольку у нас много вопросов типа «должен ли я использовать хи-квадрат или использовать точный тест Фишера», которые появляются, когда Я ищу!)

— Серебряная рыба

@Silverfish: Я не имел в виду ,

был устаревают, коррекция всего Йетса было. Я полагаю, что исследования показали, что коррекция Йейтса слишком консервативна, когда маргинальные значения не зафиксированы. Статья Майкла Хабера « Исправление непрерывности и статистическое тестирование» предоставила обзор.

χ^{2}

$\chi^2$

— Фрэнсис

4

@Silverfish, это, вероятно, то, что вам нужно: учитывая мощь компьютеров в наши дни, есть ли когда-нибудь причина для проведения теста хи-квадрат, а не точного теста Фишера?

— gung - Восстановить Монику

используя OLS вместо LAD?

— PatrickT

5

@PatrickT: У меня много проблем с называнием OLS анахронизмом. Конечно, есть особые случаи, когда LAD явно превосходит ... но то же самое можно сказать и в другом направлении.

— Клифф А.Б.

49

Настоятельно можно утверждать, что использование пороговых уровней значимости, таких как или является историческим пережитком периода, когда большинство исследователей зависело от ранее рассчитанных таблиц критических значений. Теперь хорошее программное обеспечение будет давать напрямую. Действительно, хорошее программное обеспечение позволяет настраивать анализ и не зависеть от тестов из учебников. $P = 0.05$ $P = 0.01$ $P$

Это спорно , если только потому , что некоторые проблемы тестирования значимости требуют решений, как и в контроле качества , где принятие или отклонение партии является решение , необходимым, с последующим действием либо образом. Но даже там пороги, которые будут использоваться, должны вырасти из анализа риска, а не зависеть от традиции. И часто в науках анализ количественных показателей более уместен, чем решения: мышление количественно подразумевает внимание к размерам значений, а не только к грубой дихотомии, значимой или не значимой. $P$

Я отмечу, что здесь я затрагиваю запутанную и противоречивую проблему, которая находится в центре внимания целых книг и, возможно, тысяч статей, но, похоже, это хороший пример для этой темы.

— Ник Кокс
источник

4

Отличный пример! Для справки стоит упомянуть эту тему: Что касается значений p, почему 1% и 5%? Почему не 6% или 10%?

— Фрэнсис

5

@ JM Я на 95% уверен, что ты прав, хотя я не уверен на 99%.

— Марк Л. Стоун

5

На самом деле, я не уверен, что это отличный пример. Хотя правда, что при

гораздо проще тестировать вещи, чем раньше, я никогда не видел хорошего аргумента для того, почему вы хотите этого , за исключением особых случаев (например, контроля качества), в этом случае я не Знайте, что произвольные уровни значимости все еще используются.

α = 0.038561

$\alpha = 0.038561$

— Клифф AB

4

@CliffAB Я не думаю, что основной смысл точного P-значения заключается в том, что вы затем решаете, что он представляет собой критический уровень, который вы хотите принять для принятия решения. Я, конечно, не предлагаю или защищаю это. Часть аргумента здесь заключается не только в том, что 0,05 и 0,01 находятся на лучших обычных уровнях, но и в том, что тесты дают один способ для оценки силы доказательства против нулевой гипотезы, а не для принятия двоичного решения. На практике уровни 0,05 и 0,01 очень интенсивно используются во многих областях.

— Ник Кокс

4

@ Ник Кокс И не забывайте уровень 0.1 для непринужденной, спелой толпы.

— Марк Л. Стоун

24

Один метод, с которым я думаю, что многие посетители этого сайта согласятся со мной, - это ступенчатая регрессия. Это все еще делается все время, но вам не нужно долго искать экспертов на этом сайте, которые осуждают его использование. Такой метод, как LASSO, является наиболее предпочтительным.

— Cliff AB
источник

4

HA !! Вы рекомендуете заменить анахронизм (ступенчатую регрессию) на анахронизм следующего поколения (LASSO), который в свое время является анахронизмом, сторонники которого еще не осознают этого. См. Stats.stackexchange.com/questions/162861/… .

— Марк Л. Стоун

3

@ MarkL.Stone: Эй, чувак, по крайней мере, это 20 лет в правильном направлении. Я не очень знаком с этими методами, поэтому мне придется прочитать их, прежде чем я смогу дать им свое одобрение.

— Клифф AB

2

После быстрого прочтения статьи я немного не решаюсь решить, что LASSO официально устарел, хотя это не всегда оптимальный выбор. Может быть, через 5 лет мне будет удобнее называть LASSO устаревшим.

— Клифф AB

2

@amoeba: Я думаю, что Марк имеет в виду практику использования LASSO в качестве инструмента для лучшей регрессии подмножеств. Например, я смутно припоминаю, что читал, кто-то обсуждает сначала подгонку LASSO, а затем переоснащение не наказанной модели с использованием ненулевых параметров регрессии. Лучшая регрессия подмножества может быть более прямым способом сделать это (хотя, как вы говорите, не ясно, что это хорошая идея, даже если это то, что аналитик хочет сделать).

— Клифф AB

2

... и в документе представлена, по крайней мере, одна ситуация (то есть моделирование под определенными параметрами), в которой он явно выполняет LASSO, хотя я думаю, что мы все точно знаем, насколько серьезно мы должны воспринимать такие результаты самостоятельно.

— Клифф AB

17

Я считаю, что, по крайней мере, в (прикладной) эконометрике все больше и больше становится нормой использовать надежную или эмпирическую ковариационную матрицу, а не «анахроническую практику» полагаться (асимптотически) на правильную спецификацию ковариационной матрицы. Это, конечно, не без противоречий: посмотрите на некоторые ответы, которые я связал здесь, в CrossValidated, но это, безусловно, четкая тенденция.

$E[uu'] = \sigma^2 I_n$

Другие примеры включают данные панели, например , Imbens и Wooldridge пишут на своих слайдах лекций аргументы против использования ковариационной матрицы дисперсии случайных эффектов (неявно предполагая некоторую ошибочную спецификацию в компоненте дисперсии по умолчанию):

$\sigma_c^2$ $\sigma_u^2$

Используя обобщенные линейные модели (для распределений, которые принадлежат экспоненциальному семейству), часто рекомендуется всегда использовать так называемую оценку сэндвича, а не полагаться на правильные предположения о распределении (здесь анахроническая практика): см., Например, этот ответ или Кэмерон, ссылающийся на подсчитывать данные, потому что псевдомаксимальная оценка правдоподобия может быть достаточно гибкой в случае неправильной спецификации (например, с использованием Пуассона, если отрицательный биномиал будет правильным).

Такие [белые] стандартные исправления ошибок должны быть сделаны для регрессии Пуассона, поскольку они могут иметь гораздо большее значение, чем аналогичные поправки гетероскедастичности для OLS.

Грин пишет в своем учебнике в главе 14 (доступно на его веб-сайте), например, с критической заметкой и более подробно рассказывает о преимуществах и недостатках этой практики:

В современной литературе существует тенденция регулярно вычислять этот [сэндвич] оценщик, независимо от функции правдоподобия. * [...] * Мы еще раз подчеркиваем, что оценщик сэндвичей сам по себе не обязательно добродетель, если функция правдоподобия не указана и другие условия для оценки М не выполнены.

— Arne Jonas Warnke
источник

4

Интересно, но вопрос в том, что является анахронизмом, а не тем, что сейчас становится все более стандартным, поэтому ответ должен быть перевернут.

— Ник Кокс

1

Привет, Ник, спасибо за ваш комментарий (и ваши правки), я изменил текст, чтобы подчеркнуть, что такое анахроническая практика, надеюсь, она станет немного понятнее. Я не инвертировал весь текст, так как предыдущая практика близка к тому, чтобы ничего не делать, особенно со стандартной ошибкой.

— Арне Йонас Варнке

В некоторых случаях это не естественно и невозможно использовать надежные альтернативы, скажем, временные ряды. Поэтому я думаю, что он не становится «более популярным», а просто «более популярным в некоторых областях».

— Генри. L

13

$m > 1$ $m$ $m = 1$

$m = 30$

— Cliff AB
источник

Пришел сюда, чтобы опубликовать это. Также: я не уверен, что есть какая-либо ситуация, когда FWER предпочтительнее, чем новые методы FDR (из-за масштабируемости и адаптивности).

— Алексис

13

Большинство анахронических практик, вероятно, связано с тем, как преподается статистика, а также с тем фактом, что анализ проводится огромным количеством людей, которые взяли только пару базовых классов. Мы часто преподаем набор стандартных статистических идей и процедур, потому что они образуют логическую последовательность повышения концептуальной сложности, которая имеет смысл с педагогической точки зрения (ср., Как мы можем когда-либо знать дисперсию населения? ). Я сам виноват в этом: иногда я преподаю статистику 101 и 102 и постоянно говорю: «Есть лучший способ сделать это, но он выходит за рамки этого класса». Для тех студентов, которые не выходят за рамки вводной последовательности (почти все), им оставляют базовые, но замененные стратегии.

Для примера со статистикой 101, вероятно, наиболее распространенной анахроничной практикой является проверка некоторого предположения, а затем выполнение традиционного статистического анализа, поскольку тест не был значимым. Более современный / продвинутый / оправданный подход заключается в том, чтобы с самого начала использовать метод, устойчивый к этому предположению. Некоторые ссылки для получения дополнительной информации:
- Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках
- Является ли тестирование нормальности «по существу бесполезным»?
Для примеров статистики 102 любое количество методов моделирования было устаревшим:
- $Y$ $p$
- $Y$
- Использование полинома высшего порядка для захвата кривизны и кубических сплайнов.
- $p$ $R^2$
- С данными повторных измерений, категоризация непрерывной переменной, так что можно использовать rmANOVA или усреднение нескольких измерений по сравнению с использованием линейной смешанной модели.
- И т.п.

Смысл во всех этих случаях заключается в том, что люди делают то, чему сначала учили в начальном классе, потому что они просто не знают более продвинутых и подходящих методов.

— Гунг
источник

5

Очень интересным примером являются тесты единичного корня в эконометрике. Несмотря на то, что существует множество вариантов для тестирования с использованием или для единичного корня в полиноме запаздывания временного ряда (например, (расширенный) тест Дики-Фуллера или тест KPSS), проблему можно полностью обойти, если использовать байесовский анализ. , Симс указал на это в своей провокационной газете под названием « Понимание юнитов Rooters: тур на вертолете» с 1991 года.

Тесты единичного корня остаются действительными и используются в эконометрике. Хотя я лично приписываю это главным образом тем, что люди не хотят приспосабливаться к байесовским методам, многие консервативные эконометрики защищают практику тестов единичного корня, говоря, что байесовский взгляд на мир противоречит предпосылке эконометрических исследований. (То есть экономисты думают о мире как о месте с фиксированными параметрами, а не случайными параметрами, которые определяются каким-то гиперпараметром.)

— Jeremias K
источник

5

Мне было бы интересно кратко обсудить, как байесовские практики обходят эти тесты. Другими словами, как бы вы обосновали это требование?

— Майк Хантер

Я должен признать, что прошло много времени с тех пор, как я прочитал статью, но суть в том, что при использовании плоского априора для байесовского анализа временного ряда можно использовать стандартные t-значения.

— Иеремия К

5

Оплата лицензионных сборов за высококачественные статистические программные системы. #Р

— pteetor
источник

1

Обучение / проведение двусторонних тестов на различия без одновременного тестирования на эквивалентность в частой сфере тестирования гипотез - это глубокая приверженность к уклону от подтверждения .

Есть некоторый нюанс в том, что соответствующий анализ мощности с вдумчивым определением величины эффекта может защититься от этого и дать более или менее те же самые выводы, но (a) анализ мощности так часто игнорируется при представлении результатов, и (b) I никогда и не видели анализ мощности для, например, каждый коэффициент оценивается для каждой переменной в множественной регрессии, но это просто сделать это для комбинированных испытаний на разницу и тестов для эквивалентности (т.е. актуальность тестов).

— Алексис
источник

0

Использование отрицательной биномиальной модели, а не (надежной) модели Пуассона для идентификации интересующего параметра в переменной счетчика, только потому, что существует чрезмерная дисперсия?

Смотрите в качестве ссылки: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Доказательство того, что Пуассон является более надежным в случае с фиксированными эффектами, является довольно недавним, поскольку в нем уже упоминались: Вулдридж Дж. М., «Оценка без распределения некоторых нелинейных панельных моделей данных», Journal of Econometrics 90 (1999), 77-97.

— Александр Казенав-Лакруц
источник

-6

Вот несколько анахронизмов:

Неоплатоническое предположение о том, что в теоретическом эфире существует единственная, «истинная» популяция, которая является вечной, неизменной и неподвижной, по которой могут быть оценены наши несовершенные образцы, мало что способствует продвижению обучения и знаний.
Редукционизм, присущий мандатам, таким как бритва Оккама, не согласуется со временем. ИЛИ можно обобщить следующим образом: «Среди конкурирующих гипотез следует выбирать ту, которая имеет наименьшее количество предположений». Альтернативы включают в себя принцип множественных объяснений Эпикура , который примерно гласит: «Если данные соответствуют нескольким теориям, сохраните их все».
Вся система рецензирования остро нуждается в капитальном ремонте.

* Редактировать *

С массивными данными, содержащими десятки миллионов функций, больше нет необходимости в фазе выбора переменной.
Кроме того, логическая статистика бессмысленна.

— DJohnson
источник

Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .

— whuber