Может ли очистка данных ухудшить результаты статистического анализа?


17

Увеличение числа случаев и смертей происходит во время эпидемий (внезапное увеличение числа) из-за циркуляции вируса (например, вируса Западного Нила в США в 2002 г.) или из-за снижения устойчивости людей или загрязнения пищи или воды или увеличения числа комары. Эти эпидемии будут представлены как выбросы, которые могут происходить каждые 1-5 лет. Удаляя эти выбросы, мы удаляем доказательства эпидемий, которые составляют важную часть прогнозирования и понимания болезней.

Нужна ли очистка данных при борьбе с выбросами, вызванными эпидемиями?

Это улучшит результаты или ухудшит результаты статистического анализа?

Ответы:


12

Это на самом деле зависит от цели вашего исследования. На мой взгляд, их может быть несколько:

  1. Вы хотите понять, каковы типичные факторы, которые вызывают случаи и смерти и на которые не влияют периоды эпидемии, и факторы, которые вызывают эпидемии (поэтому вы заинтересованы в типичных, не форсированных основных вероятностях) - в этом случае вам, очевидно, необходимо устранить эпидемию периоды от данных, поскольку они с целью исследования выбросов к тому, что вы хотели бы сделать вывод
  2. Возможно, вы захотите включить эпидемические изменения в свои модели (например, модели переключения режимов, любые добрые ссылки и предложения модели от сообщества приветствуются здесь), потому что вы хотите знать вероятность наступления эпидемического периода (а также как долго это будет продолжаться), чтобы проверить стабильность и прогнозировать - в этом случае вы не исключаете эпидемические периоды, а ищете более сложные модели, а не выбираете молоток-эконометрический инструмент или что-то подобноеОLS
  3. Ваша главная цель - выявлять эпидемические периоды и отслеживать их в режиме реального времени - это специальная область в эконометрике, с которой многие мои коллеги работают в Вильнюсском университете (определенно, вы хотели бы иметь много эпидемиологических наблюдений, чтобы иметь дело с )

Поэтому, если ваша основная цель - что-то вроде 2, очистка данных приведет к неправильным выводам о будущих прогнозах, то есть к неточным результатам прогнозирования. Также верно, что 2-й случай не обязательно дает лучшие прогнозы, но вы, по крайней мере, могли бы сделать выводы о вероятности эпидемических периодов и их продолжительности. Это актуально для актуарных математиков, так что, может быть, вы один?


Отличный и простой ответ. У вас есть заметные знания в молодом возрасте.
DrWho

15

Я лично не назвал бы это «очисткой данных». Я больше думаю об очистке данных в смысле редактирования данных - об устранении несоответствий в наборе данных (например, запись сообщает о возрасте 1000 лет, или человек в возрасте 4 лет является одним из родителей и т. Д.).

Наличие реального эффекта в ваших данных не делает их «грязными» (наоборот, наличие реальных эффектов сделает их богатыми) - хотя это может сделать вашу математическую задачу более сложной. Я бы посоветовал «очистить» данные таким образом, если это единственный реальный способ получить прогноз. Если есть способ, который не выбрасывает информацию, используйте его.

Похоже, что вы можете извлечь выгоду из своего рода циклического анализа, учитывая, что вы говорите, что этот эффект возникает периодически (что-то вроде «делового цикла»).

С моей точки зрения, если вы смотрите на прогнозирование чего-либо, то устранение подлинного эффекта из этого источника может только ухудшить ваши прогнозы. Это потому, что вы фактически «выбросили» ту самую информацию, которую вы хотите предсказать!

Другой момент заключается в том, что может быть трудно определить, сколько смертей было вызвано эпидемией и сколько было вызвано обычными колебаниями.

В статистической терминологии эпидемия звучит так, что, с вашей точки зрения, это «неприятность» для того, что вы действительно хотите проанализировать. Таким образом, вы не особенно заинтересованы в этом, но вам нужно как-то учитывать это в своем анализе. Один «быстрый и грязный» способ сделать это в условиях регрессии - это включить показатель эпидемических лет / периодов в качестве переменной регрессора. Это даст вам среднюю оценку влияния эпидемий (и подразумевает, что воздействие одинаково для каждой эпидемии). Однако этот подход работает только для описания эффекта, потому что при прогнозировании ваша переменная регрессии неизвестна (вы не знаете, какие периоды в будущем будут эпидемическими).

Другой способ объяснить эпидемию - использовать смешанную модель с двумя компонентами: одну модель для эпидемической части и одну модель для «обычной» части. Затем модель выполняется в два этапа: 1) классифицировать период как эпидемический или нормальный, затем 2) применить модель, к которой он был классифицирован.


(+1) хорошие предложения, хотя, вероятно, возможны и другие не такие грязные уловки.
Дмитрий Челов

+1; Что касается потомков, я хочу сделать следующий комментарий: Вы заявляете, что «устранение подлинного эффекта ... может только ухудшить ваши прогнозы». В контексте вы явно правы, однако в общем случае это не обязательно так. (Я имею в виду «компромисс между отклонениями», который имеет большое значение в прогнозном моделировании.) Опять же, я думаю, что вы здесь, и я знаю, что вы знаете о компромиссе между отклонениями; Я хочу упомянуть это для любого, кто сталкивается с этим ответом в будущем и может неправильно истолковать это утверждение.
gung - Восстановить Монику

5

Чтобы дать вам общий ответ на ваш вопрос, позвольте мне перефразировать слова одного из моих старых генеральных менеджеров: возможности исследования находятся в пределах модели, которую вы подходите.

Ситуация аналогична эксперименту, выполненному моим Робертом Милликаном при определении заряда электрона. Спустя десятилетия после получения Нобелевской премии за эксперимент, его записи были проверены, и было обнаружено, что он выбросил большое количество данных, потому что они не согласились с результатами, которые он искал. Это плохая наука?

Если вы найдете несколько выбросов, то, возможно, они связаны с «статистическими отклонениями». Тем не менее, если вы обнаружите несколько отклонений, вам нужно более внимательно изучить свои данные. Если вы не можете объяснить причину отклонений, то вы не понимаете процесс, и статистическая модель не решит вашу проблему. Цель модели состоит в том, чтобы суммировать процесс, модель не будет магически суммировать процесс, который экспериментатор не понимает.


Это человеческая тенденция. Роберт Милликен не был исключением. Я очень рад, что так много нового было просвещено, и философия статистической модели подчеркивается.
DrWho

5

Роль «очистки данных» заключается в определении того, когда «наши законы (модели) не работают». Корректировка на выбросы или ненормальные точки данных позволяет нам получать «надежные оценки» параметров в текущей модели, которую мы развлекаем. Эти «выбросы», если их не лечить, допускают нежелательные искажения в параметрах модели, поскольку оценка «приводится для объяснения этих точек данных», которые «не ведут себя в соответствии с нашей гипотетической моделью». Другими словами, существует много окупаемости с точки зрения объясненной суммы квадратов, фокусируясь на «злодеях». Эмпирически определенные пункты, которые требуют очистки, должны быть тщательно изучены, чтобы потенциально развить / предложить причины факторов, которых нет в текущей модели.

Как оценить эффект вмешательства в одном штате по сравнению с другим, используя ежегодный коэффициент летальности?

Заниматься наукой - значит искать повторяющиеся паттерны.

Обнаружение аномалий означает выявление значений, которые не повторяют повторяющиеся закономерности. Как еще вы узнали бы, что точка нарушила эту модель? На самом деле процесс роста, понимания, поиска и изучения выбросов должен быть итеративным. Это не новая мысль.

Сэр Фрэнсис Бэкон, пишущий в Novum Organum около 400 лет назад, сказал: «Ошибки природы, спорта и монстров корректируют понимание обычных вещей и раскрывают общие формы. Для тех, кто знает пути Природы, легче заметить ее отклонения; и, с другой стороны, тот, кто знает ее отклонения, будет более точно описывать ее пути ».

Мы меняем наши правила, наблюдая, когда текущие правила не работают.

Если действительно все выявленные выбросы являются импульсами и имеют сходные эффекты (размер), то мы предлагаем следующее (цитата из другого автора)

«Один« быстрый и грязный »способ сделать это в условиях регрессии - это включить показатель эпидемических лет / периодов в качестве переменной регрессора. Это даст вам среднюю оценку воздействия эпидемий (и подразумевает, что влияние то же самое для каждой эпидемии.) Однако этот подход работает только для описания эффекта, потому что при прогнозировании ваша переменная регрессии неизвестна (вы не знаете, какие периоды в будущем будут эпидемическими). ​​"

Это, если курс требует, чтобы отдельные аномалии (пульсовые годы) имели сходные эффекты. Если они отличаются, то переменная portmanteau, описанная выше, будет неверной.


@IrishStat: отличное объяснение и запоминающаяся цитата. Вы сохранили свой стаж и опыт. Можете ли вы любезно расширить заявление «ожидание знаний , чтобы быть обнаружены» со ссылкой на мой предыдущий вопрос stats.stackexchange.com/questions/8358/...
Drwho

1
@ DrWHO: Идентификация СДВИГА УРОВНЯ в 2014 году, которая исправила очень плохо выглядящий остаточный участок, является примером «знания, ожидающего быть обнаруженным», поскольку оно раскрыло очевидную задержку между датой изменения политики и датой ее полной реализации / реализации. Заявление о том, что постоянный сдвиг уровня (ступеньки) был полностью реализован в 2004 году (год 11 из 17), отражает фактическую дату, когда де-юре дата была несколько лет назад.
IrishStat,

@IrishStat: Спасибо за разъяснения. Очень трудно убедить политиков, врачей и общественность в том, что конкретное лечение может иметь радикальные изменения в исходе заболевания. Это занимает десятилетия. Этот сдвиг уровня, замеченный в 2004 году, отражает задержку в принятии чего-то нового. Лучше ли оставить сдвиг уровня или рассматривать его как выброс для расчетов коэффициентов смертности в случае состояния 1, когда он занимается вопросом stats.stackexchange.com/questions/8358/…
DrWho

1
мой комментарий выше должен был быть ИЗМЕНЕНИЕ УРОВНЯ в 2004 году. Извините за путаницу.
IrishStat

1
@DrWHO: В ответ на ваш вопрос «Лучше ли оставить сдвиг уровня или рассматривать его как выброс для расчетов коэффициентов летальности состояния 1 при решении вопроса». Если вы не принимаете это во внимание, то можно просто сказать, что в STATE1 произошло изменение сдвига уровня в 2004 году, в то время как в STATE2 этого не произошло, поэтому они не отличаются друг от друга, но нельзя предположить вероятность этого утверждения. После обработки СОСТОЯНИЯ1 для Сдвига Уровня нормализовались данные для изменения состояния в 2004 году. Нормализованные данные (очищенные данные) затем можно сравнить с нормализованными данными СОСТОЯНИЯ 2 без потери общности.
IrishStat

5

Одним из наиболее часто используемых методов выявления эпидемий в ретроспективных данных является это на самом деле поиск выбросов - например, многие исследователи гриппа в первую очередь сосредотачиваются на остатках своих подогнанных моделей, а не на самих моделях, чтобы увидеть места, где «день» предсказания модели «изо дня в день» не срабатывают - один из способов, с помощью которого модель может потерпеть неудачу, - это появление эпидемии.

Однако крайне важно, чтобы вы проводили различие между выискиванием выбросов в ваших результатах - вероятно, не самой лучшей идеей в истории - и тем, что большинство людей называют «очисткой данных». Здесь вы ищете выбросы не потому, что они представляют статистическую проблему, а потому, что они вызывают проблемы с качеством данных.

Например, в наборе данных, который у меня есть, есть переменная для начала заболевания. По одному предмету эта дата - ноябрь 1929 года. Думаю ли я, что это правильно? Нет. Это указывает на проблему качества данных, которую необходимо исправить - в этом случае исправление даты основано на другой информации о предмете. Этот тип очистки данных будет активно улучшать качество ваших статистических результатов.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.