Практические правила для «современной» статистики


85

Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа поисковых данных. Но я чувствую, что «современных» руководств в некоторой степени не хватает, особенно в связи с постоянно растущим использованием вычислительной и надежной статистики в различных областях или внедрением методов сообщества машинного обучения, например, в клиническую биостатистику или генетическую эпидемиологию.

Помимо вычислительных уловок или распространенных ошибок в визуализации данных, о которых можно было бы поговорить в другом месте, я хотел бы спросить: какие практические рекомендации вы бы порекомендовали для эффективного анализа данных? ( одно правило на ответ, пожалуйста ).

Я думаю о руководящих принципах, которые вы могли бы предоставить коллеге, исследователю, не обладающему достаточным опытом в области статистического моделирования, или студенту, проходящему курс среднего и продвинутого уровня. Это может относиться к различным этапам анализа данных, например стратегиям выборки, выбору признаков или построению модели, сравнению модели, последующей оценке и т. Д.

Ответы:


62

Не забудьте выполнить базовую проверку данных перед началом анализа. В частности, обратите внимание на график разброса каждой переменной, которую вы собираетесь анализировать, по идентификационному номеру, дате / времени сбора данных или тому подобному. Глаз часто может обнаружить шаблоны, которые выявляют проблемы, когда сводная статистика не показывает ничего необычного. И если вы собираетесь использовать журнал или другое преобразование для анализа, также используйте его для графика.


6
Я усвоил этот трудный путь. Дважды.
2010 года

2
Да! Смотри, прежде чем прыгать. Пожалуйста, посмотрите на данные.
vqv

7
Визуальный осмотр данных может привести к увеличению ошибки типа I, если решения принимаются нерегулярно. Я склонен проводить подтверждающие анализы, так как они были заранее определены, и включать результаты, на которые влиял осмотр, в качестве аналитического анализа или анализа чувствительности.
AdamO

51

Сделайте свой анализ воспроизводимым. Рецензент, или ваш начальник, или кто-то еще, в конце концов, спросят вас, как именно вы пришли к своему результату - вероятно, через шесть или более месяцев после того, как вы сделали анализ. Вы не будете помнить, как вы чистили данные, какой анализ вы делали, почему вы выбрали конкретную модель, которую вы использовали ... И реконструировать все это - боль.

Следствие: используйте какой-нибудь язык сценариев, добавляйте комментарии в сценарии анализа и сохраняйте их. То, что вы используете (R, SAS, Stata, что угодно), менее важно, чем наличие полностью воспроизводимого сценария. Откажитесь от среды, в которой это невозможно или неудобно.


24
Если вы собираетесь использовать R, я бы порекомендовал встроить ваш код R в документ Sweave, который создает ваш отчет. Таким образом, код R остается в отчете.
Джон Д. Кук

36

Там нет бесплатного обеда

Большая часть статистических сбоев создается нажатием большой блестящей кнопки под названием «Рассчитать значимость» без учета бремени скрытых предположений.

Повторение

Даже если речь идет о единственном вызове генератора случайных чисел, у него может быть удача или неудача, и поэтому он может сделать неверные выводы.


29

Одно правило на ответ ;-)

Поговорите со статистиком перед проведением исследования. По возможности, до подачи заявки на грант. Помогите ему / ей понять проблему, которую вы изучаете, получить его / ее информацию о том, как анализировать данные, которые вы собираетесь собирать, и подумать о том, что это значит для вашего дизайна исследования и требований к данным. Возможно, парень по статистике предлагает создать иерархическую модель для учета того, кто поставил диагноз пациентам - тогда вам нужно отследить, кто кого диагностировал. Звучит тривиально, но гораздо лучше подумать об этом, прежде чем собирать данные (а не собирать что-то важное), чем потом.

На заметку по теме: сделайте анализ мощности перед запуском. Ничто так не расстраивает, как отсутствие бюджета на достаточно большой объем выборки. Размышляя о ожидаемом размере эффекта, помните о предвзятости публикации - размер эффекта, который вы найдете, вероятно, будет меньше, чем вы ожидали, учитывая (смещенную) литературу.


28

Одна вещь, которую я говорю своим ученикам, - это создать соответствующий график для каждого p-значения. например, диаграмма рассеяния, если они проверяют корреляцию, боксы бок о бок, если они делают одностороннюю ANOVA, и т. д.


28

Если вы выбираете один из двух способов анализа ваших данных, попробуйте оба варианта и посмотрите, имеет ли это значение.

Это полезно во многих контекстах:

  • Преобразовать или не преобразовать
  • Непараметрический или параметрический тест
  • Корреляция Спирмена или Пирсона
  • PCA или факторный анализ
  • Использовать ли среднее арифметическое или надежную оценку среднего
  • Независимо от того, чтобы включить ковариату или нет
  • Использовать ли удаление по списку, удаление по паре, вменение или какой-либо другой метод замены пропущенных значений

Это не должно освобождать человека от размышлений над вопросом, но, по крайней мере, дает представление о степени, в которой существенные выводы являются надежными для выбора.


4
Это цитата? Мне просто интересно, как пробные альтернативные процедуры тестирования (не стратегии анализа!) Не могут несколько нарушить контроль над ошибкой типа I или начальным расчетом мощности. Я знаю, что SAS систематически возвращает результаты параметрических и непараметрических тестов (по крайней мере, при сравнении средних значений по двум выборкам и ANOVA), но я всегда нахожу это интригующим: разве мы не должны решить, прежде чем увидеть результаты, какой тест следует применять?
CHL

4
@ CHL хорошая мысль. Я согласен с тем, что приведенное выше практическое правило может быть использовано по неправильным причинам. То есть, пробовать разные способы и сообщать только результат, который дает более приятный ответ. Я считаю, что эмпирическое правило столь же полезно, как и учебный инструмент для аналитиков данных, для изучения влияния решений по анализу на существенные выводы. Я видел, как многие студенты теряются в принятии решений, особенно когда в литературе есть конкурирующие советы (например, преобразовывать или не преобразовывать), которые часто оказывают минимальное влияние на существенные выводы.
Джером Энглим

1
@ CHL Нет, это не цитата. Но я подумал, что было бы хорошо разграничить эмпирическое правило от его обоснования и предостережений. Я изменил его на жирный, чтобы было понятно.
Джером Энглим

1
Хорошо, для меня имеет смысл попробовать различные преобразования и посмотреть, если это обеспечивает лучший способ для учета изученных отношений; что я не понимаю, так это пробовать разные стратегии анализа, хотя это актуальная практика (но об этом не сообщается в опубликованных статьях :-), особенно. когда они основаны на разных предположениях (в EFA и PCA вы принимаете дополнительный термин ошибки; в непараметрическом и параметрическом тестировании вы отбрасываете часть предположений и т. д.). Но я согласен, что разграничение между предварительным и подтверждающим анализом не так ясно ...
гл

2
Это кажется мне полезным только для исследовательского анализа или на этапах обучения и проверки. Вам всегда потребуется заключительный проверочный этап тестирования, иначе вы можете обмануть себя некоторыми значительными результатами, которые сработают, как только вы получите желаемое различие в соответствии с вашими «субъективными» убеждениями . Кто должен судить, какой метод работает лучше? Я лично, если я сомневаюсь в различных методах, то я проверяю это на смоделированных данных, чтобы проверить такие вещи, как дисперсия оценок или робастность и т. Д.
Sextus Empiricus

22

Опрос ваши данные. В современную эпоху дешевой оперативной памяти мы часто работаем с большими объемами данных. Одна ошибка «жирного пальца» или «потерянного десятичного знака» может легко доминировать в анализе. Без какой-либо базовой проверки работоспособности (или составления графика данных, как предлагают другие здесь) можно потратить много времени. Это также предполагает использование некоторых базовых методов «устойчивости» к выбросам.


2
Следствие: посмотрите, не закодировал ли кто-то пропущенное значение как «9999» вместо «NA». Если ваше программное обеспечение использует это значение по номиналу, это испортит ваш анализ.
С. Коласса - Восстановить Монику

21

Используйте программное обеспечение, которое показывает цепочку логики программирования от необработанных данных до окончательного анализа / результатов. Избегайте программного обеспечения, такого как Excel, где один пользователь может сделать необнаружимую ошибку в одной ячейке, которую подхватит только ручная проверка.


1
VisTrails - это одна система, которая помогает этому процессу. (Я использовал только доморощенные системы; общие групповые цели более важны, чем конкретный инструмент.)
Денис

18

Всегда спрашивайте себя, что означают эти результаты и как они будут использоваться?

Обычно целью использования статистики является помощь в принятии решений в условиях неопределенности. Поэтому важно иметь в виду: «Какие решения будут приняты в результате этого анализа и как этот анализ повлияет на эти решения?» (например, опубликовать статью, порекомендовать использовать новый метод, выделить $ X для финансирования Y, получить больше данных, сообщить предполагаемое количество в виде E и т. д. и т. д.)

Если вы не чувствуете, что какое-либо решение необходимо принять, тогда возникает вопрос, почему вы делаете анализ в первую очередь (так как анализ довольно дорогой). Я считаю статистику «неприятностью» в том смысле, что она является средством для достижения цели, а не самой целью. На мой взгляд, мы только количественно оцениваем неопределенность, чтобы мы могли использовать ее для принятия решений, которые точно учитывают эту неопределенность.

Я думаю, что это одна из причин того, что простота - хорошая политика в целом, потому что обычно гораздо проще связать простое решение с реальным миром (и, следовательно, со средой, в которой принимается решение), чем со сложным решением. , Также обычно легче понять ограничения простого ответа. Затем вы переходите к более сложным решениям, когда понимаете ограничения простого решения и то, как комплексное решение их устраняет.


3
Я согласен со всем, кроме понятия, чтобы все было просто. Для меня простота или сложность должны зависеть от стоимости неправильного решения, которое вы красноречиво объяснили. Простота может иметь незначительные затраты в одной области (например, показ неверной рекламы клиенту) и существенно отличаться в другой (назначение неправильного лечения пациенту).
Томас Шпейдел

18

Там может быть длинный список, но упомянуть несколько: (без определенного порядка)

  1. Р-значение НЕ является вероятностью. В частности, это не вероятность совершения ошибки типа I. Аналогично, КИ не имеют вероятностной интерпретации для данных. Они применимы для повторных экспериментов.

  2. Проблема, связанная с дисперсией, доминирует в большинстве случаев на смещении, поэтому предвзятая оценка с небольшой дисперсией лучше, чем несмещенная оценка с большой дисперсией (большую часть времени).

  3. Подгонка модели - это итеративный процесс. Перед анализом данных выясните источник данных и возможные модели, которые соответствуют или не соответствуют описанию. Кроме того, попробуйте смоделировать любые проблемы дизайна в вашей модели.

  4. Используйте инструменты визуализации, посмотрите на данные (на предмет возможных отклонений, очевидных тенденций и т. Д., Чтобы понять данные), прежде чем анализировать их. Используйте методы визуализации (если возможно), чтобы увидеть, как модель соответствует этим данным.

  5. И последнее, но не менее важное: используйте статистические программы для того, для чего они созданы (чтобы упростить задачу вычислений), они не заменяют человеческое мышление.


14
Ваш пункт 1 неверен: значение P - это вероятность получения данных как экстремальных или более экстремальных, учитывая нулевую гипотезу. Насколько я знаю, это означает, что P является условной вероятностью, но, тем не менее, вероятностью. Ваше утверждение верно в тех случаях, когда человек работает в рамках парадигмы ошибок Неймана-Пирсона, но не работает в рамках парадигмы Фишера, где значения P являются идентификаторами доказательств против нулевой гипотезы. Это правда, что парадигмы регулярно смешиваются в непоследовательную мешанину, но обе являются «правильными», если их использовать в одиночку и нетронутыми.
Майкл Лью

2
Для доверительных интервалов вы, опять же, корректируете только в пределах неймановских доверительных интервалов. Фишер (и другие его предшественники) также разработали и использовали вещи, которые можно было бы интерпретировать как доверительные интервалы, и существует совершенно достоверная интерпретация таких интервалов, относящихся к конкретному эксперименту, дающему интервал. На мой взгляд, они гораздо предпочтительнее Неймана. Смотрите мой ответ на вопрос Дискретные функции: покрытие доверительного интервала? для более подробной информации: stats.stackexchange.com/questions/8844/…
Майкл Лью,

@ Майкл, вы правы, но давайте посмотрим: сколько раз правильный ноль? Или лучше: кто-нибудь может доказать, что ноль правильный? Мы также можем иметь глубокие философские дебаты по этому поводу, но это не главное. В контроле качества повторения имеют смысл, но в науке любое хорошее правило принятия решения должно обусловливать данные.
Suncoolsu

1
Фишер знал об этом (исходя из наблюдаемых данных, на этом основано замечание о контроле качества). Он привел много контрпримеров, основанных на этом. Байесовцы боролись за это, скажем, уже более полувека.
Suncoolsu

1
@ Майкл Извините, если я не достаточно ясно. Все, что я хотел сказать: P-значение - это вероятность ТОЛЬКО, когда значение null равно true, но в большинстве случаев значение null НЕ является истинным (как в случае: мы никогда не ожидаем, что будет истинным; мы предполагаем, что оно истинно, но наше предположение практически неверно.) Если вам интересно, я могу указать на некоторую литературу, обсуждающую эту идею более подробно. μ=0
Suncoolsu

13

При организации / управлении данными убедитесь, что при создании новых переменных в наборе данных (например, при расчете индекса массы тела по росту и весу) исходные переменные никогда не удаляются. Неразрушающий подход является лучшим с точки зрения воспроизводимости. Вы никогда не знаете, когда вы можете неправильно ввести команду, и впоследствии вам придется повторить генерацию вашей переменной. Без исходных переменных вы потеряете много времени!


11

Тщательно продумайте основной процесс генерации данных (DGP). Если модель, которую вы хотите использовать, не отражает DGP, вам нужно найти новую модель.


Откуда ты знаешь, как ты можешь знать, что такое DGP. Например, я провожу временные ряды в области, где мне еще предстоит увидеть хорошо разработанную теорию (почему происходят определенные виды государственных расходов). Я не думаю, что это возможно, чтобы узнать истинный процесс в этом случае.
user54285

8

Для гистограмм хорошее эмпирическое правило для количества бинов в гистограмме :

квадратный корень из числа точек данных


6

Несмотря на все большие наборы данных и более мощное программное обеспечение, переоснащение моделей представляет собой серьезную опасность для исследователей, особенно тех, кто еще не сожжен из-за перенастройки. Перенастройка означает, что вы установили что-то более сложное, чем ваши данные и уровень техники. Как любовь или красота, это трудно определить, не говоря уже о том, чтобы определить формально, но легче распознать.

Минимальное практическое правило - 10 точек данных для каждого параметра, оцененного для чего-либо, подобного классической регрессии, и следите за последствиями, если вы игнорируете его. Для других анализов обычно требуется гораздо больше, чтобы хорошо выполнять свою работу, особенно если в данных есть редкие категории.

Даже если вы можете легко подобрать модель, вам следует постоянно беспокоиться о том, что это значит и насколько далеко она воспроизводится даже с очень похожим набором данных.


Это обычно рассматривается как практическое правило для моделей, где реакция условно нормальная. В других случаях это слишком либерально. Например, для двоичной классификации соответствующее эмпирическое правило будет 15 наблюдениями в менее часто встречающейся категории для каждой переменной; и для анализа выживаемости это будет 10 событий (т.е. не подвергнутых цензуре данных) для каждой переменной.
gung - Восстановить Монику

Я согласен. Я отредактирую, но почему бы не опубликовать собственное правило вместе с расширенными комментариями.
Ник Кокс

1
Вы должны выделить последнее предложение: «Даже если вы можете легко подогнать модель, вам следует постоянно беспокоиться о том, что это значит и насколько далеко она воспроизводится даже с очень похожим набором данных».
Секст Эмпирик

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

Если модель не будет сходиться легко и быстро, это может быть ошибкой программного обеспечения. Однако гораздо чаще ваши данные не подходят для модели или модель не подходит для данных. Может быть трудно сказать, какие, и эмпирики и теоретики могут иметь разные взгляды. Но предметное мышление, действительно глядя на данные и постоянно думая об интерпретации модели, помогают как можно больше. Прежде всего, попробуйте более простую модель, если сложная не будет сходиться.

Нет никакой выгоды в форсировании конвергенции или в объявлении победы и получении результатов после многих итераций, но до того, как ваша модель действительно сошлась. В лучшем случае ты обманешь себя, если сделаешь это.


«действительно глядя на данные» было бы так приятно, когда мы получили NN, который делает эту работу за нас.
Секст Эмпирик

Это называлось JWT.
Ник Кокс

5

В регрессии инструментальных переменных всегда проверяйте совместную значимость ваших инструментов. Практическое правило Staiger-Stock говорит, что F-статистика менее 10 вызывает беспокойство и указывает, что ваши инструменты могут быть слабыми, то есть они недостаточно коррелируют с эндогенной переменной. Однако это не означает автоматически, что F выше 10 гарантирует сильные инструменты. Staiger и Stock (1997) показали, что методы инструментальных переменных, такие как 2SLS, могут быть сильно смещены в «маленьких» выборках, если инструменты слабо коррелируют с эндогенной переменной. Их примером было исследование Angrist and Krueger (1991), у которого было более 300 000 наблюдений - тревожный факт о понятии «маленьких» образцов.


Я добавил ссылку на статью, но я считаю, что этот ответ требует некоторого дальнейшего форматирования, мне показалось слишком сложным подчеркнуть «практическое правило», основанное на очень быстром сканировании статьи, и этот ответ не очень интуитивен.
Секст Эмпирик

3

Нет критериев для выбора информационных критериев.

Когда кто-то говорит что-то вроде: «? IC указывает на это, но известно, что он дает неправильные результаты» (где? Любая буква, которая вам нравится), вы знаете, что вам также придется подумать о модели и особенно о том, делает ли она научный или практический смысл.

Ни одна алгебра не может вам этого сказать.


2

Я читал это где-то (вероятно, на перекрестной проверке), и я не смог найти его где-нибудь, так что здесь ...

Если вы обнаружили интересный результат, это, вероятно, неправильно.

Очень легко быть взволнованным перспективой ошеломляющего p-значения или почти идеальной ошибки перекрестной проверки. Я лично в восторге представил удивительные (ложные) результаты коллегам только для того, чтобы их отозвать. Чаще всего, если это выглядит слишком хорошо, чтобы быть правдой ...

'запятнай правду. «Запятнайте правду вообще.


2

Постарайтесь быть доблестным, а не добродетельным. То есть, не позволяйте мелким признакам ненормальности, не-независимости или нелинейности и т. Д. Преградить вам дорогу, если такие указания необходимо игнорировать, чтобы данные звучали громко и четко. , - В переводе с датского «dristig» против «dydig» являются прилагательными.


1

При анализе продольных данных обязательно проверяйте, чтобы переменные кодировались одинаково в каждом периоде времени.

Во время написания моей диссертации, которая повлекла за собой анализ вторичных данных, была неделя или почти полная недоумение сдвига средних показателей депрессии на 1 единицу по сравнению со стабильным средним значением по годам: оказалось, что один из лет в моем набор данных, элементы шкалы для проверенного прибора были закодированы 1–4 вместо 0–3.


1

Ваша гипотеза должна определять ваш выбор модели, а не наоборот.

Перефразируя Маслоу, если вы молоток, все выглядит как гвоздь. Конкретные модели поставляются с блайндами и предположениями о мире, построенном прямо: например, нединамические модели душат обратную связь по результатам лечения.


1

Используйте симуляцию, чтобы проверить, где структура вашей модели может создавать «результаты», которые являются просто математическими артефактами предположений вашей модели

Выполните свой анализ на случайных переменных или на смоделированных переменных, о которых известно, что они не связаны друг с другом. Сделайте это много раз и сопоставьте усредненные точечные оценки (и доверительные или достоверные интервалы) с результатами, которые вы получаете на реальных данных: все ли они отличаются?


0

Я скорее аналитик данных, чем статистик, но это мои предложения.

1) Прежде чем анализировать данные, убедитесь, что предположения вашего метода верны. После того, как вы увидите результаты, их будет трудно забыть даже после того, как вы исправите проблемы и результаты изменится.

2) Это помогает узнать ваши данные. Я запускаю временные ряды и получаю результат, который не имеет особого смысла, учитывая данные последних лет. В свете этого я рассмотрел методы и обнаружил, что усреднение моделей в методе искажало результаты за один период (и произошел структурный разрыв).

3) Будьте осторожны с эмпирическими правилами. Они отражают опыт отдельных исследователей из своих собственных данных, и, если их область сильно отличается от вашей, их выводы могут быть неверными для ваших данных. Более того, и для меня это было шоком, статистики часто расходятся во мнениях по ключевым вопросам.

4) Попытайтесь проанализировать данные разными методами и посмотреть, схожи ли результаты. Поймите, что ни один метод не является идеальным, и будьте внимательны, чтобы проверить, насколько это возможно, на предмет допущений.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.