Когда p-значения обманчивы?

14

Каковы условия данных, на которые мы должны обратить внимание, когда p-значения не могут быть лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?

bigdata statistics

— user179
источник

2

Снаркий ответ: почти всегда. Существует огромный стимул создавать ошибки типа 1 (то есть «ложные тревоги»), когда аналитики проверяют данные, поэтому почти все p-значения, с которыми вы столкнетесь, «слишком» малы.

— statsRus

7

Просто добавлю это, но разве такой вопрос лучше не ставить на Cross Validated ?

— buruzaemon

1

@buruzaemon: Может быть. Я выполнил поиск, это самое близкое совпадение: stats.stackexchange.com/questions/67320/… Кажется, есть не более чем несколько вопросов, которые касаются этого.

— Алекс я

9

Вы спрашиваете об отбраковке данных , что и происходит при тестировании очень большого числа гипотез с набором данных или при проверке гипотез с набором данных, предложенных теми же данными.

В частности, проверьте множественные гипотезы опасности и проверки гипотезы, предложенные данными .

Решение состоит в том, чтобы использовать какую-то коррекцию для коэффициента ложного обнаружения или частоты ошибок Familywise , такую как метод Шеффе или (очень старая школа) коррекция Бонферрони .

В несколько меньшей степени это может помочь отфильтровать ваши открытия по доверительному интервалу для отношения шансов (ИЛИ) для каждого статистического результата. Если доверительный интервал 99% для отношения шансов равен 10-12, то ИЛИ <= 1 с некоторой чрезвычайно малой вероятностью, особенно если размер выборки также большой. Если вы обнаружите что-то подобное, это, вероятно, будет сильным эффектом, даже если он будет проверен миллионами гипотез.

— Алекс я
источник

1

Хотя Bonferroni определенно является старой школой, он все еще довольно популярен. С этим связан метод, называемый исправлением Шидака ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Я говорю об этом, потому что в большой рекламной системе таргетинга, над которой я работал, мы смогли реализовать этот подход как UDF в Hive. Однако это работает лучше только тогда, когда у вас есть независимость между тестами. Если нет, то вам придется прибегнуть к Бонферрони или другому методу.

— Крис Симокат

5

Вы не должны рассматривать значение p вне контекста.

Одним из довольно простых моментов (как показано на примере xkcd ) является то, что вам необходимо учитывать, сколько тестов вы фактически делаете. Очевидно, вы не должны быть шокированы, увидев p <0,05 для одного из 20 тестов, даже если нулевая гипотеза верна каждый раз.

Более тонкий пример этого встречается в физике высоких энергий и известен как эффект поиска в другом месте . Чем больше пространство параметров, которое вы ищете для сигнала, который может представлять новую частицу, тем больше вероятность того, что вы увидите видимый сигнал, который действительно вызван случайными колебаниями.

— Тим Гудман
источник

2

Одна вещь, которую вы должны знать, это размер выборки, который вы используете. Очень большие выборки, такие как экономисты, использующие данные переписи, приведут к дефлированным значениям p. Эта статья «Слишком большая, чтобы обанкротиться: большие выборки и проблема p-значения» охватывает некоторые из проблем.

— Дэн С
источник