Часто статистическому аналитику передают набор данных и просят соответствовать модели, используя метод, такой как линейная регрессия. Очень часто набор данных сопровождается заявлением об отказе, похожем на «О, да, мы испортили сбор некоторых из этих точек данных - делай, что можешь».
Эта ситуация приводит к припадкам регрессии, на которые сильно влияет присутствие выбросов, которые могут быть ошибочными данными. Учитывая следующее:
С научной и моральной точек зрения опасно выбрасывать данные только по той причине, что они «плохо выглядят».
В реальной жизни люди, которые собирали данные, часто не могут ответить на такие вопросы, как «при создании этого набора данных, с какими точками вы столкнулись, точно?»
Какие статистические тесты или эмпирические правила можно использовать в качестве основы для исключения выбросов в линейном регрессионном анализе?
Существуют ли какие-либо особые соображения для полилинейной регрессии?