Роль «очистки данных» заключается в определении того, когда «наши законы (модели) не работают». Корректировка на выбросы или ненормальные точки данных позволяет нам получать «надежные оценки» параметров в текущей модели, которую мы развлекаем. Эти «выбросы», если их не лечить, допускают нежелательные искажения в параметрах модели, поскольку оценка «приводится для объяснения этих точек данных», которые «не ведут себя в соответствии с нашей гипотетической моделью». Другими словами, существует много окупаемости с точки зрения объясненной суммы квадратов, фокусируясь на «злодеях». Эмпирически определенные пункты, которые требуют очистки, должны быть тщательно изучены, чтобы потенциально развить / предложить причины факторов, которых нет в текущей модели.
Как оценить эффект вмешательства в одном штате по сравнению с другим, используя ежегодный коэффициент летальности?
Заниматься наукой - значит искать повторяющиеся паттерны.
Обнаружение аномалий означает выявление значений, которые не повторяют повторяющиеся закономерности. Как еще вы узнали бы, что точка нарушила эту модель? На самом деле процесс роста, понимания, поиска и изучения выбросов должен быть итеративным. Это не новая мысль.
Сэр Фрэнсис Бэкон, пишущий в Novum Organum около 400 лет назад, сказал: «Ошибки природы, спорта и монстров корректируют понимание обычных вещей и раскрывают общие формы. Для тех, кто знает пути Природы, легче заметить ее отклонения; и, с другой стороны, тот, кто знает ее отклонения, будет более точно описывать ее пути ».
Мы меняем наши правила, наблюдая, когда текущие правила не работают.
Если действительно все выявленные выбросы являются импульсами и имеют сходные эффекты (размер), то мы предлагаем следующее (цитата из другого автора)
«Один« быстрый и грязный »способ сделать это в условиях регрессии - это включить показатель эпидемических лет / периодов в качестве переменной регрессора. Это даст вам среднюю оценку воздействия эпидемий (и подразумевает, что влияние то же самое для каждой эпидемии.) Однако этот подход работает только для описания эффекта, потому что при прогнозировании ваша переменная регрессии неизвестна (вы не знаете, какие периоды в будущем будут эпидемическими). "
Это, если курс требует, чтобы отдельные аномалии (пульсовые годы) имели сходные эффекты. Если они отличаются, то переменная portmanteau, описанная выше, будет неверной.