«Выброс» - это удобный термин для сбора данных, которые не соответствуют тому, как вы ожидаете, чтобы ваш процесс выглядел, чтобы исключить их из анализа.
Я бы предложил никогда (будьте осторожны позже) удалять выбросы. Я имею в виду статистический контроль процессов, поэтому часто имею дело с большими объемами автоматически генерируемых данных временных рядов, которые обрабатываются с использованием графика выполнения / графика с подвижной рамкой / и т.д. в зависимости от данных и распределения.
Особенность выбросов заключается в том, что они всегда будут предоставлять информацию о вашем «процессе». Часто то, что вы рассматриваете как один процесс, на самом деле является множеством процессов, и оно гораздо сложнее, чем вы думаете.
Используя пример в вашем вопросе, я бы предположил, что может быть несколько «процессов». будут изменения из-за ...
- образцы, взятые одним проводящим устройством
- образцы, взятые между устройствами проводимости
- когда субъект снял зонд
- когда предмет сдвинулся
- различия в коже одного человека по всему телу или в разные дни отбора проб (волосы, влага, масло и т. д.)
- различия между предметами
- обучение человека, проводящего измерения и различия между сотрудниками
Все эти процессы приведут к дополнительным изменениям в данных и, вероятно, сместят среднее значение и изменят форму распределения. Многие из них вы не сможете разделить на отдельные процессы.
Итак, переходя к идее удаления точек данных как «выбросов» ... Я бы удалил точки данных только тогда, когда я определенно могу отнести их к определенному «процессу», который я не хочу включать в свой анализ. Затем вам нужно убедиться, что причины неучтения записаны как часть вашего анализа, так что это очевидно. Не принимайте атрибуцию, это ключевой момент для создания дополнительных заметок посредством наблюдения во время сбора данных.
Я бы оспорил ваше утверждение «потому что большинство из них в любом случае являются ошибками», поскольку они не являются ошибками, а просто частью другого процесса, который вы определили в своих измерениях как отличающийся.
В вашем примере я думаю, что разумно исключить точки данных, которые вы можете отнести к отдельному процессу, который вы не хотите анализировать.