Каковы общие статистические грехи?


227

Я аспирант по психологии, и, поскольку я продолжаю заниматься независимой статистикой, я все больше поражаюсь неадекватности моего формального обучения. Как личный, так и личный опыт подсказывает, что недостаток статистической строгости в обучении студентов и аспирантов довольно распространен в психологии. Таким образом, я подумал, что для таких независимых учеников, как я, было бы полезно составить список «Статистических грехов», в котором представлены статистические практики, преподаваемые аспирантам как стандартная практика, которая на самом деле либо заменяется превосходящей (более мощной, либо гибкой, либо надежными и т. д.) современными методами или признанными недействительными. В ожидании того, что в других областях также может возникнуть аналогичная ситуация, я предлагаю вики сообщества, где мы можем собрать список статистических грехов по дисциплинам.


5
Я знаю, что «грех», возможно, подстрекательский и что некоторые аспекты статистического анализа не являются черно-белыми. Мое намерение состоит в том, чтобы выслушивать случаи, когда данная обычно преподаваемая практика довольно явно неуместна.
Майк Лоуренс

5
Вы также можете добавить студентов-биологов / медиков, если хотите;)
nico

1
может переименовать это в статистические грехи науки о жизни? ... или что-то еще более конкретное ...
Джон

1
@whuber Было несколько хороших ответов, поэтому я объединил их обоих.

1
Привет @ Аманда, не могли бы вы дать некоторое представление о том, что в разговоре? Никто не любит возможность быть прокрученным.
naught101

Ответы:



115

Большинство интерпретаций р-значений греховны! Обычное использование p-значений является ошибочным; Факт, который, на мой взгляд, ставит под сомнение стандартные подходы к преподаванию гипотез и проверок на достоверность.

Халлер и Краузе обнаружили, что статистические инструкторы почти так же, как и студенты, неверно истолковывают значения р. (Пройдите тест в их статье и посмотрите, как вы это делаете.) Стив Гудман хорошо обосновывает отказ от обычного (неправильного) использования значения p в пользу вероятностей. Бумага Хаббарда также стоит посмотреть.

Халлер и Краусс. Неверное толкование значимости: проблема, которую ученики делят со своими учителями . Методы психологического исследования (2002) том. 7 (1) с. 1-20 ( PDF )

Хаббард и Баярри. Неразбериха с показателями достоверности (p) и ошибками (α) в классическом статистическом тестировании . Американский статистик (2003), вып. 57 (3)

Хороший человек. На пути к доказательной медицинской статистике. 1: ошибка значения P Ann Intern Med (1999), вып. 130 (12) с. 995-1004 ( PDF )

Также см:

Wagenmakers, EJ. Практическое решение распространенных проблем значений p. Psychonomic Bulletin & Review, 14 (5), 779-804.

для некоторых явных случаев, когда даже номинально «правильная» интерпретация p-значения была сделана неверной из-за выборов, сделанных экспериментатором.

Обновление (2016 г.) : в 2016 г. Американская статистическая ассоциация опубликовала заявление о p-значениях, см. Здесь . В некотором смысле это был ответ на «запрет на p-значения», опубликованный журналом по психологии около года назад.


2
@Michael (+1) Я добавил ссылки на рефераты и PDF без документов. Надеюсь, ты не возражаешь.
ЧЛ

7
+1, но я хотел бы сделать несколько критических замечаний. Что касается вводной строки, то можно с таким же успехом сказать, что «почти все» (в теоретическом смысле меры) интерпретации любого четко определенного понятия неверны, поскольку верна только одна. Во-вторых, на что вы ссылаетесь, когда говорите «обычное использование» и «стандартные подходы»? Эти расплывчатые ссылки звучат как соломенный человек. Например, они не соответствуют тому, что можно найти в литературе по статистическому образованию.
uuber

4
@ Whuber Посмотрите на газету Гудман. Это вполне соответствует моему опыту в области фармакологии. Методы говорят: «Результаты, где P <0,05 были приняты как статистически значимые», а затем результаты представлены с + для p <0,05, ++ для p <0,01 и +++ для p <0,0001. Это утверждение подразумевает контроль частоты ошибок по Нейману и Пирсону, но использование различных уровней p предполагает подход Фишера, где значение p является показателем силы доказательств против нулевой гипотезы. Как указывает Гудман, вы не можете одновременно контролировать частоту появления ошибок и оценить достоверность доказательств.
Майкл Лью

8
@ Майкл Есть альтернативные, более щедрые интерпретации такого рода отчетности. Например, автору может быть известно, что читатели могут захотеть применить свои собственные пороговые значения значимости и, следовательно, сделать пометку p-значений, чтобы помочь им. В качестве альтернативы автор может знать о возможных проблемах множественного сравнения и использовать разные уровни в бонферрони-подобной корректировке. Возможно, некоторая часть вины за неправильное использование p-значений должна лежать у ног читателя, а не автора.
whuber

4
@ Whhuber Я полностью согласен, но только то, что вы предлагаете, верно в некоторой небольшой части случаев (ограниченная версия «полностью»). Есть некоторые журналы, в которых указано, что значения p следует сообщать на одном, двух или трех звездных уровнях, а не на точных значениях, поэтому эти журналы несут определенную ответственность за результат. Однако и это необдуманное требование, и очевидно наивное использование значений p могут быть результатом отсутствия четкого объяснения различий между показателями ошибок и доказательствами в нескольких вводных статистических текстах, которые находятся на моих полках.
Майкл Лью

73

Самая опасная ловушка, с которой я столкнулся при работе с прогнозирующей моделью, - это не заблаговременно зарезервировать набор тестовых данных, чтобы посвятить его «окончательной» оценке производительности.

Очень легко переоценить точность прогнозирования вашей модели, если у вас есть возможность каким-то образом использовать данные тестирования при настройке параметров, выборе предыдущего, выборе критерия остановки алгоритма обучения ...

Чтобы избежать этой проблемы, перед началом работы с новым набором данных вы должны разделить данные на:

  • комплект разработки
  • оценочный набор

Затем разделите ваш набор разработки на «набор разработки обучения» и «набор разработки тестирования», где вы используете набор разработки обучения для обучения различных моделей с различными параметрами и выбираете лучшие показатели в соответствии с их эффективностью в наборе разработки тестирования. Вы также можете выполнять поиск по сетке с перекрестной проверкой, но только по набору разработки. Никогда не используйте оценочный набор, пока выбор модели не сделан на 100%.

Если вы уверены в выборе модели и ее параметрах, выполните перекрестную проверку в 10 раз на наборе оценки, чтобы получить представление о «реальной» прогностической точности выбранной модели.

Кроме того, если ваши данные являются временными, лучше всего выбрать разделение разработки / оценки по временному коду: «Трудно делать прогнозы, особенно в отношении будущего».


5
Я согласен с этим в принципе, но в случае небольшого набора данных (у меня часто бывает только 20-40 случаев) использование отдельного набора оценки нецелесообразно. Вложенная перекрестная проверка может обойти это, но может привести к пессимистическим оценкам для небольших наборов данных
BGreene

11
В общем, для надежного разделения данных требуется огромный набор данных. Вот почему строгая внутренняя проверка с помощью начальной загрузки так привлекательна.
Фрэнк Харрелл

Особенно, когда набор разработок является прошлыми данными, а набор данных оценки - будущими. Почему бы после всех настроек модели не обучить окончательную модель с ее фиксированными параметрами для всего набора разработки и предсказать весь набор оценки с ее помощью. В реальном сценарии вы не могли бы перекрестной проверки через будущие данные так, как вы описываете в любом случае, поэтому вы бы использовали все соответствующие прошлые данные.
Дэвид Эрнст

64

Сообщение р-значений, когда вы выполняли анализ данных (обнаружение гипотез) вместо статистики (проверка гипотез).


2
Можете ли вы (или кто-то) уточнить?
antoine-sac 22.09.15


Как насчет значений p, скорректированных для проверки множественных гипотез (с некоторой разновидностью метода Бонферрони или более сложной коррекцией)? Я склонен думать, что это хорошо, даже в контексте интеллектуального анализа данных?
antoine-sac

Мне нравится общая идея, но приравнивание статистики к проверке гипотез является искажением, когда последняя является подмножеством первой.
rolando2

46

Проверка гипотез против (например, в гауссовой настройке)H 1 : μ 0H0:μ=0H1:μ0

чтобы обосновать, что в модели (то есть, смесь " не отклонена" и " верна").H 0 H 0μ=0H0H0

Очень хороший пример такого (очень плохого) рассуждения - это когда вы проверяете, равны ли (или нет) дисперсии двух гауссиан перед проверкой, равны ли их средние значения или нет с предположением равной дисперсии.

Другой пример возникает, когда вы проверяете нормальность (в отличие от ненормальности), чтобы оправдать нормальность. Каждый статистик сделал это в жизни? это baaad :) (и должен подтолкнуть людей к проверке устойчивости к негауссовости)


6
Та же самая логика (принимая «отсутствие доказательств в пользу H1» как «доказательство отсутствия H1») по существу лежит в основе всех тестов на соответствие. Рассуждения также часто возникают, когда люди заявляют, что «тест был несущественным, поэтому мы можем заключить, что нет влияния фактора X / нет влияния переменной Y». Я предполагаю, что грех менее серьезен, если сопровождается рассуждениями о силе теста (например, априорная оценка размера выборки для достижения определенной мощности с учетом определенного значимого размера эффекта).
Каракал

Если вы не сделаете какое-либо заключение о мощности, я бы сказал, что утверждение истинно, когда оно не отклонено, очень и очень плохо, в то время как утверждение истинно, а отклонено, просто немного неправильно :). H 1 H 0H0H1H0
Робин Жирар

Большой!! Да, это сводит меня с ума ..
jpillow

3
Я стараюсь быть статистически грамотным и все же время от времени влюбляюсь в это. Какие есть альтернативы? Измените свою модель, чтобы старый ноль стал ? Единственный другой вариант, который я могу придумать, - это достаточно усилить ваше исследование, чтобы неудача отклонить нулевое значение на практике было достаточно близко для подтверждения нулевого значения. Например, если вы хотите убедиться, что добавление реагента в ваши клетки не убьет более 2% из них, приведите к удовлетворительному показателю ложного отрицания. H1
DocBuckets

Проверка эквивалентности @DocBuckets с двумя односторонними тестами является более строгой, чем основанный на мощности подход. Но вам нужно установить минимальный соответствующий размер эффекта, ниже которого вы можете говорить о практической эквивалентности.
Дэвид Эрнст

46

Несколько ошибок, которые меня беспокоят:

  1. Предполагая, что объективные оценки всегда лучше, чем объективные оценки.

  2. R2R2

  3. Неправильная интерпретация / применение корреляции.

  4. Оценка точек отчета без стандартной ошибки.

  5. Использование методов, которые предполагают некоторый вид многомерной нормальности (например, линейный дискриминантный анализ), когда доступны более надежные, более эффективные, не / полупараметрические методы.

  6. Использование р-значения в качестве меры силы между предиктором и ответом, а не в качестве меры, свидетельствующей о некоторой взаимосвязи.


5
Вы бы разбили их на отдельные варианты?
russellpierce

41

Дихотомизация переменной непрерывного предиктора для «упрощения» анализа или решения «проблемы» нелинейности в эффекте непрерывного предиктора.


18
Я не думаю, что это действительно «грех», так как полученные результаты не являются ошибочными. Тем не менее, он выбрасывает много полезной информации, поэтому не является хорошей практикой.
Роб Хиндман

2
Вдобавок к этому, использование экстремальных групп создает завышенные величины эффекта, тогда как использование среднего или медианного расщепления занижает размеры эффекта.
Расселпирс

2
Это даже не грех, если есть два или более различных населения. Предположим, у вас есть отдельные классы или подгруппы, тогда имеет смысл дискретизировать. Очень тривиальный пример: я бы предпочел использовать индикаторы для сайта / местоположения / города / страны или широты / долготы?
Итератор

3
+1, и это становится серьезным грехом, когда они начинают выбирать срез дихотомизации, чтобы оптимизировать какое-то различие, которое затем проверяется.
Эрик

5
@ Итератор, вы начинаете понимать реальную причину агрегирования (по двум или более категориям), потому что у кого-то есть априорные теоретические основания полагать, что дисперсия осмысленно разделена на эти категории . Например, мы делаем это все время, предполагая, что коллекции из триллиона или около того клеток составляют отдельного человека или что непрерывный 24-часовой период здесь на Земле осмысленно интерпретируется как единица. Но произвольная агрегация не просто «выбрасывает» информацию (например, статистическую мощность), но может привести к (серьезным) предвзятым отношениям между явлениями.
Алексис

41

Не совсем отвечаю на вопрос, но есть целая книга на эту тему:

Филипп И. Хорошо, Джеймс Уильям Хардин (2003). Распространенные ошибки в статистике (и как их избежать). Wiley. ISBN 9780471460688


6
+1 Я убедился, что прочитал эту книгу вскоре после того, как она вышла. У меня много возможностей для статистических ошибок, поэтому я всегда благодарен, что мне их указали, прежде чем я их сделаю!
whuber


41

Ритуализированная статистика.

Этот «грех» возникает, когда вы применяете то, чему вас учили, независимо от его уместности, потому что это то, как все делается. Это статистика поочередно, на один уровень выше, что позволяет машине выбирать вашу статистику для вас.

В качестве примера можно привести студентов, знакомящихся с уровнями статистики, которые пытаются привести все в соответствие со своим скромным t-тестом и инструментарием ANOVA, или каждый раз, когда кто-то говорит: «О, у меня есть категорические данные, я должен использовать X», не останавливаясь, чтобы взглянуть на данные, или рассмотрите вопрос, который задают.

Вариация этого греха включает в себя использование кода, который вы не понимаете, чтобы произвести вывод, который вы только понимаете, но знаете «пятый столбец, примерно на 8 строк ниже» или любой другой ответ, который вы должны искать.


6
К сожалению, если вы не заинтересованы в статистических выводов, или мало по времени и / или ресурсов, ритуал кажется очень appealling ...
probabilityislogic

Для меня описание Эпиграда относится к человеку, который заботится о логическом выводе и пренебрегает такими вещами, как рефлексия, открытие и рассмотрение причинности.
rolando2

35

Возможно ступенчатая регрессия и другие формы тестирования после выбора модели.

Выбор независимых переменных для моделирования без какой- либо априорной гипотезы за существующими отношениями может привести к логическим ошибкам или ложным корреляциям, среди других ошибок.

Полезные ссылки (с биологической / биостатистической точки зрения):

  1. Козак М. и Азеведо Р. (2011). Имеет ли смысл использование пошагового выбора переменных для построения моделей последовательного анализа пути? Physiologia plantarum, 141 (3), 197–200. DOI: 10.1111 / j.1399-3054.2010.01431.x

  2. Уиттингем М.Дж., Стивенс П., Брэдбери Р.Б. и Фреклтон Р.П. (2006). Почему мы все еще используем ступенчатое моделирование в экологии и поведении? Журнал экологии животных, 75 (5), 1182–9. DOI: 10.1111 / j.1365-2656.2006.01141.x

  3. Фрэнк Харрелл, Стратегии регрессионного моделирования , Springer 2001.


32

Что-то удивительное, что я вижу в документах конференций и даже в журналах, - это многократное сравнение (например, двумерных корреляций), а затем сообщение о всех p <.05 как «значимых» (игнорируя правильность или неправильность этого на данный момент).

Я знаю, что вы имеете в виду по поводу выпускников факультетов психологии - я получил докторскую степень по психологии, и я все еще только учусь на самом деле. Это довольно плохо, я думаю, что психология должна относиться к количественному анализу данных более серьезно, если мы собираемся использовать его (что, очевидно, мы должны)


9
Это особенно важно. Я помню, как читал исследование о том, был ли Рамадан вреден для детей, чьи матери постились. Это выглядело правдоподобно (меньше еды, меньше вес при рождении), но потом я посмотрел на приложение. Тысячи гипотез, и несколько процентов из них находились в «значительном» диапазоне. Вы получаете странные «выводы», такие как «это плохо для ребенка, если Рамадан - 2-й, 4-й или 6-й месяц».
Карлос

29

Быть исследовательским, но притворяться подтверждающим. Это может произойти, когда кто-то модифицирует стратегию анализа (т.е. подбор модели, выбор переменной и т. Д.), Управляемый данными или ориентированный на результат, но не заявляя об этом открыто, а затем только сообщая о «наилучших» (то есть с наименьшими p-значениями) результатах, как если бы это был единственный анализ. Это также относится к тому моменту, когда Крис Били проводил многократное тестирование, и в научных отчетах высокий уровень ложноположительных результатов.


26

То, что я вижу довольно часто и постоянно переворачиваю свое снаряжение, - это предположение о том, что статистически значимый основной эффект в одной группе и не статистически значимый основной эффект в другой группе подразумевают значительный эффект x групповое взаимодействие.


24

Особенно в эпидемиологии и здравоохранении - использование арифметики вместо логарифмической шкалы при представлении графиков относительных показателей ассоциации (отношение рисков, отношение шансов или отношение риска).

Больше информации здесь .


5
Не говоря уже о том, чтобы вообще их не маркировать xkcd.com/833
radek

23

Корреляция подразумевает причинность, которая не так плоха, как принятие нулевой гипотезы.


но иногда ... иногда потенциальные направления причинности имеют весьма несопоставимые вероятности. Я, конечно, не собираюсь думать, что корреляция между возрастом и ростом может быть вызвана ростом ... или какой-либо промежуточной переменной либо. Кроме того, я думаю, что это та практика, к которой поведенческая наука, как правило, весьма чувствительна.
Джон

действительно, вывод из чего-то A and B are correlatedобычно только видят, A causes Bно не видят B causes A... (и забывают о Cпричинах Aи причинах B)
Andre Holzner

12
Google зарабатывает 65 миллиардов долларов в год, не заботясь о разнице ...
Нил Макгиган

5
Я согласен с вашими пунктами, и все они действительны. Но подразумевает ли прибыль Google: корреляция => причинность?
Suncoolsu

3
Google делает все эти деньги, не заботясь о причинности вообще. Действительно, с чего бы это? Предсказание - вот что ...
сопряженный

23

Анализ данных о скорости (точность и т. Д.) С использованием ANOVA, при этом предполагается, что данные о скорости имеют гауссову распределенную ошибку, когда они фактически распределены биномиально. Диксон (2008) предоставляет обсуждение последствий этого греха и исследование более подходящих подходов к анализу.


4
Насколько это уменьшает мощность анализа? В каких условиях это наиболее проблематично? Во многих случаях отклонения от допущений ANOVA не оказывают существенного влияния на результаты в значительной степени.
Майкл Лью

Какова альтернатива процедуре ANOVA?
Хенрик

@Michael Lew & Henrik: я только что обновил эту запись, добавив ссылку на Диксона (2008)
Майк Лоуренс,

2
Но вкратце, это наиболее проблематично, когда наблюдаемые вероятности являются низкими или высокими, поскольку диапазон значений сужен и не может удовлетворить гауссовские предположения.
russellpierce

Это только так плохо, как нормальное приближение к биномиальному - должно быть хорошо, при условии, что каждый случай взвешивается знаменателем, используемым при расчете ставки. Ожидается, что он будет работать плохо для ставок ниже 10% и выше 90%.
вероятностная

18

В настоящее время популярным является построение 95-процентных доверительных интервалов вокруг необработанных значений производительности в схемах с повторными измерениями, когда они связаны только с дисперсией эффекта. Например, график времен реакции в схеме с повторными измерениями с доверительными интервалами, где член ошибки получен из MSE повторных измерений ANOVA. Эти доверительные интервалы не представляют собой ничего разумного. Они, конечно, ничего не представляют об абсолютном времени реакции. Вы можете использовать термин ошибки для создания доверительных интервалов вокруг эффекта, но это делается редко.


Есть ли стандартная статья, на которую можно ссылаться, чтобы отговорить рецензентов от требования этой слишком распространенной практики?
Расселпирс

Единственная критика, которую я знаю, это Blouin & Riopelle (2005), но они не доходят до сути вопроса. Я обычно не настаиваю на том, чтобы не показывать их, а делаю что-то правильное, как на графиках эффектов Masson & Loftus (2003, см. Рисунок 4, правая панель ... если бы они были удалены с левого, вы сделали бы это правильно ).
Джон

Просто чтобы быть ясно, проблема с этими КИ заключается в том, что они используются исключительно по логическим причинам в отношении различий между условиями и, следовательно, хуже, чем PLSD ... на самом деле, я предпочитаю их. По крайней мере, они честны.
Джон

17

Хотя я могу относиться ко многим из того, что говорит Майкл Лью, отказ от p-значений в пользу отношений правдоподобия по-прежнему не позволяет решить более общую проблему - проблему переоценки вероятностных результатов по сравнению с величинами эффекта, которые необходимы для придания значимости результата. Этот тип ошибок встречается во всех формах и размерах, и я считаю его самой коварной статистической ошибкой. Опираясь на Дж. Коэна, М. Оукса и других, я написал об этом статью на http://integrativestatistics.com/insidious.htm .


3
Мне на самом деле неясно, как отношение правдоподобия (LR) не достигает всего, чего достигает размер эффекта, и в то же время использует легко интерпретируемую шкалу (данные содержат в X раз больше доказательств для Y, чем для Z). Размер эффекта обычно представляет собой просто некоторую форму отношения объясненной и необъяснимой изменчивости, а (во вложенном случае) LR - это соотношение необъяснимой изменчивости между моделью, которая имеет эффект, и той, которая не имеет. Не должно ли, по крайней мере, существовать сильная корреляция между величиной эффекта и LR, и если да, что теряется при переходе к шкале отношения правдоподобия?
Майк Лоуренс

Майк - Ты заинтересовал меня, но твои очки распространяются на размеры эффекта так же просто, как средние различия между группами? Это может быть легко интерпретировано непрофессионалом, а также могут быть назначены доверительные интервалы.
rolando2

Ах, так что под размером эффекта вы подразумеваете абсолютный размер эффекта, значение, которое само по себе не имеет смысла, но которое можно сделать осмысленным путем преобразования в относительный размер эффекта (путем деления на некоторую меру изменчивости, как я уже упоминал) или путем вычисления доверительный интервал для абсолютного размера эффекта. Мой аргумент выше относится к достоинствам LRs по сравнению с величинами относительного эффекта. Может быть полезна для вычисления CI эффекта в случаях, когда фактическое значение эффекта представляет интерес (например, прогнозирование), но я все еще поддерживаю LR как более интуитивную шкалу для разговоров о доказательствах для / против эффектов.
Майк Лоуренс

Я предполагаю, что использование LR против CI, вероятно, будет варьироваться в зависимости от контекста, который может быть с пользой обобщен следующим образом: более исследовательские этапы науки, где теории приблизительно характеризуются наличием / отсутствием явлений, могут предпочесть, чтобы LR количественно свидетельствовали. С другой стороны, КИ могут быть предпочтительнее на более продвинутых этапах науки, где теории в достаточной степени уточняются, чтобы обеспечить возможность детального прогнозирования, включая диапазоны ожидаемых эффектов или, наоборот, когда разные диапазоны величин эффектов поддерживают разные теории. Наконец, предсказания, генерируемые из любой модели, нуждаются в CI.
Майк Лоуренс

0|β|=1|β|>1|β|1β=0β0

15

Неспособность проверить предположение, что ошибка обычно распределена и имеет постоянную дисперсию между обработками. Эти предположения не всегда проверяются, поэтому подгонка модели наименьших квадратов, вероятно, часто используется, когда она на самом деле неуместна.


11
Что неуместно в оценке наименьших квадратов, когда данные ненормальны или гетероскедастичны? Это не полностью эффективно, но это все еще беспристрастно и последовательно.
Роб Хиндман

3
Если данные являются гетероскедастичными, вы можете получить очень неточные прогнозы выборки, потому что регрессионная модель будет слишком стараться минимизировать ошибку на выборках в областях с высокой дисперсией и недостаточно жесткой на выборках из областей с низкой дисперсией. Это означает, что вы можете получить очень плохо настроенную модель. Это также означает, что ошибки в прогнозах будут неверными.
Дикран Marsupial

6
Нет, это объективно, но разница больше, чем если бы вы использовали более эффективный метод по причинам, которые вы объясняете. Да, интервалы прогнозирования неверны.
Роб Хиндман

4
Да (я использовал смещение в разговорном, а не статистическом смысле, чтобы обозначить, что модель систематически смещена к наблюдениям в областях с высокой дисперсией пространства признаков - mea culpa!) - точнее было бы сказать, что более высокая дисперсия означает существует повышенный шанс получить плохую модель с использованием конечного набора данных. Это кажется разумным ответом на ваш вопрос. На самом деле я не считаю беспристрастность большим утешением - важно то, что модель должна давать хорошие прогнозы на основе данных, которые у меня есть на самом деле, и зачастую дисперсия важнее.
Дикран Marsupial

14

Мой вводный курс психометрии в бакалавриате провел, по крайней мере, две недели, обучая, как выполнять ступенчатую регрессию. Есть ли ситуация, когда ступенчатая регрессия является хорошей идеей?


6
«Хорошая идея» зависит от ситуации. Когда вы хотите максимизировать прогноз, это не ужасная идея - хотя это может привести к чрезмерной подгонке. Есть несколько редких случаев, когда это неизбежно - когда нет теории, которая могла бы руководить выбором модели. Я бы не стал считать ступенчатую регрессию «грехом», но использовать ее, когда теория достаточна для выбора модели.
Расселпирс

20
Возможно, грех делает статистические тесты на модели, полученной с помощью ступенчатой ​​регрессии.
Роб Хиндман

3
Хорошо, если вы используете перекрестную проверку и не экстраполируете. Не публикуйте значения p, так как они бессмысленны.
Нил Макгиган

Я работаю над проектом, который использует ступенчатую регрессию. Причина в том, что у меня D >> N, где D - размерность, а N - размер выборки (таким образом, исключая использование одной модели со всеми переменными), подмножества объектов сильно коррелируют друг с другом, я хочу использовать статистически принципиальный способ из выбора, может быть, 2-3 «лучших» функций, и я не собираюсь сообщать о P-значениях, по крайней мере, без какой-либо довольно консервативной коррекции.
дсимча

12

У моего старого специалиста по статистике было «эмпирическое правило» для работы с выбросами: если вы видите выброс на графике рассеяния, закройте его большим пальцем :)


Это похоже на Winsorization, который не так уж страшен.
Ари Б. Фридман

12

Это может быть скорее ответом по поп-статистике, чем вы ищете, но:

Использование среднего в качестве индикатора местоположения, когда данные сильно искажены .

Это не обязательно проблема, если вы и ваша аудитория понимаете, о чем вы говорите, но обычно это не так, и медиана часто дает лучшее представление о том, что происходит.

Мой любимый пример - средняя заработная плата, которая обычно указывается как «средняя заработная плата». В зависимости от неравенства доходов / благосостояния в стране, оно может значительно отличаться от средней заработной платы, что дает гораздо лучший показатель того, где люди живут в реальной жизни. Например, в Австралии, где у нас относительно низкое неравенство, медиана на 10-15% ниже среднего . В США разница гораздо значительнее , медиана составляет менее 70% от среднего, и разрыв увеличивается.

Сообщение о «средней» (средней) заработной плате дает более четкую картину, чем это оправдано, и может также создать у многих людей ложное впечатление, что они зарабатывают не так много, как «нормальные» люди.


Здесь есть полу-связанное обсуждение этого, поскольку оно относится к анализу трендов здесь: tamino.wordpress.com/2012/03/29/…
naught101

2
Это относится не только к асимметрии, но и является общей проблемой, заключающейся в том, что среднего или любого другого показателя центральной тенденции недостаточно без учета дисперсии. Например, если медианы двух групп были равны, но межквартильный диапазон был в 100 раз больше для одной популяции. Глядя на медиану, вы бы сказали, что это «одно и то же распределение населения», хотя в действительности они будут сильно отличаться. Не говоря уже о множественных режимах, создающих проблемы ...
вероятностная

Но для некоторых целей имеет значение среднее значение: заработная плата является обширной переменной, означающей, что суммы заработной платы имеют смысл. Для вопросов, в которых важен общий доход от заработной платы какой-либо (под) группы, правильными являются средние значения: общая сумма может быть восстановлена ​​из среднего значения, а не из среднего значения.
kjetil b halvorsen

@kjetilbhalvorsen: Почему бы тогда не использовать общее количество?
naught101

n

10

То, что p-значение - это вероятность того, что нулевая гипотеза верна, и (1-p) - это вероятность того, что альтернативная гипотеза верна, что отказ от отклонения нулевой гипотезы означает, что альтернативная гипотеза ложна и т. Д.


1
1

Интересно, вы можете дать мне ссылку, чтобы прочитать об этом?
Дикран Сумчатый

2
(вот, пожалуйста ) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] лично, хотя я нахожу это интересным, я борюсь с вопросом о том, почему апостериорное распределение отношения правдоподобия является количеством интерес.
вероятностная

10

По аналогии с @dirkan - использование p-значений в качестве формальной меры доказательства истинности нулевой гипотезы. Он обладает некоторыми хорошими эвристическими и интуитивно хорошими функциями, но, по сути, является неполной мерой доказательств, поскольку он не ссылается на альтернативную гипотезу. В то время как данные могут быть маловероятными при нулевом значении (что приводит к небольшому значению p), данные могут быть еще более маловероятными при альтернативной гипотезе.


Я не отвечаю, потому что не хочу придумывать что-то одно, и, если уж на то пошло, перебираю все, что уже дано, чтобы убедиться, что я не повторю ни одного! Но я думаю, что могу быть полезным. Есть книга Гуда и Хардина под названием «Распространенные ошибки в статистике и как их избежать». Вы можете найти много хороших примеров там. Это популярная книга, которая уже выходит в четвертом издании.
Майкл Черник

Также в книге Альтмана с Chapman & Hall / CRC «Практическая статистика в медицинских исследованиях» есть глава о медицинской литературе, где раскрыто много статистических грехов, которые произошли в опубликованных статьях.
Майкл Черник

9

Использование круговых диаграмм для иллюстрации относительных частот. Больше здесь .


2
Было бы хорошо включить некоторые рассуждения на месте.
naught101

9

Использование статистики / вероятности в проверке гипотез для измерения «абсолютной правды». Статистика просто не может этого сделать, она может быть полезна только при выборе альтернативы , которые должны быть определены «вне» статистической парадигмы. Утверждения типа «нулевая гипотеза подтверждается статистикой» просто неверны; статистика может только сказать вам, что «нулевая гипотеза поддерживается данными по сравнению с альтернативной гипотезой». Если затем вы предполагаете, что либо нулевая гипотеза, либо альтернатива должна быть верной, вы можете сказать, что «нулевая гипотеза доказана», но это всего лишь тривиальное следствие вашего предположения, а не что-либо продемонстрированное данными.


9

α=0.05

И аналогично (или почти так же, как) ответу @ ogrisel , выполняющему поиск в Grid и сообщающему только лучший результат.


Я думаю, что вы имели в виду ссылку на другой комикс, хотя это бессмертный.
rolando2

Возможно, если я хорошо помню, что я имел в виду тогда: xkcd.com/882
Эндрю

8

(С немного удачи это будет спорным.)

Использование подхода Неймана-Пирсона для статистического анализа научных экспериментов. Или, что еще хуже, используя плохо определенный гибрид Неймана-Пирсона и Фишера.


извините за невежество, но что не так с конструкцией Неймана-Пирсона для анализа (результатов) научных экспериментов?
Андре Хольцнер

@ Андре, я думаю, что это замечание может быть тесно связано с другим предложением, предложенным @Michael Lew в другом месте этой темы ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Запрос и, возможно, получение Блок-схемы . Это графическая вещь, в которой вы говорите, каков уровень ваших переменных и какие отношения вы ищете, и следуйте стрелкам вниз, чтобы пройти тест по названию или по статистике по названию. , Иногда предлагается с таинственными «параметрическими» и «непараметрическими» путями.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.