Это почти всегда обман, чтобы удалить наблюдения, чтобы улучшить регрессионную модель. Вы должны отбросить наблюдения только тогда, когда вы действительно думаете, что это на самом деле выбросы.
Например, у вас есть временной ряд от пульсометра, подключенного к вашим умным часам. Если вы посмотрите на серию, легко увидеть, что будут ошибочные наблюдения с показаниями, такими как 300 бит / с. Они должны быть удалены, но не потому, что вы хотите улучшить модель (что бы это ни значило). Это ошибки в чтении, которые не имеют никакого отношения к вашему сердечному ритму.
Однако следует соблюдать осторожность и соотносить ошибки с данными. В моем примере можно утверждать, что у вас есть ошибки, когда монитор сердечного ритма смещается во время упражнений, таких как бег или прыжки. Что сделает эти ошибки коррелированными с частотой сердцебиения. В этом случае необходимо соблюдать осторожность при удалении этих выбросов и ошибок, потому что они не случайны
Я дам вам вымышленный пример того, когда не следует удалять выбросы . Допустим, вы измеряете движение веса на пружине. Если вес невелик относительно силы веса, то вы заметите, что закон Гука работает очень хорошо: где F - сила, k - коэффициент натяжения, а Δ x - положение веса. ,
F= - k Δ x ,
FКΔ х
Теперь, если вы положите очень тяжелый вес или сместите вес слишком сильно, вы начнете видеть отклонения: при достаточно больших смещениях движение будет казаться отклоненным от линейной модели. Таким образом, у вас может возникнуть соблазн удалить выбросы, чтобы улучшить линейную модель. Это не будет хорошей идеей, потому что модель работает не очень хорошо, поскольку закон Гука только приблизительно верен.Δ х
ОБНОВЛЕНИЕ В вашем случае я бы предложил потянуть эти точки данных и посмотреть на них поближе. Может ли это быть поломка лабораторного прибора? Внешние помехи? Дефект образца? и т.п.
Затем попытайтесь определить, можно ли связать присутствие этих выбросов с тем, что вы измеряете, как в приведенном мной примере. Если есть корреляция, то нет простого способа обойти это. Если нет корреляции, вы можете удалить выбросы