Пока ваши данные поступают из известного распределения с известными свойствами, вы можете строго определить выброс как событие, которое слишком маловероятно для того, чтобы быть сгенерированным наблюдаемым процессом (если вы считаете «слишком маловероятным», чтобы быть не строгим, то вся проверка гипотез есть).
Однако этот подход проблематичен на двух уровнях: он предполагает, что данные поступают из известного распределения с известными свойствами, и он несет риск того, что выбросы будут рассматриваться как точки данных, которые были ввезены контрабандой в ваш набор данных некоторыми волшебными феями.
В отсутствие магических данных все данные поступают из вашего эксперимента, и, следовательно, на самом деле невозможно получить выбросы, просто странные результаты. Это может быть связано с ошибками записи (например, 400000 комнатный дом за 4 доллара), систематическими проблемами измерения (алгоритм анализа изображения сообщает об огромных площадях, если объект находится слишком близко к границе), экспериментальными проблемами (иногда кристаллы выпадают в осадок из раствора, которые дают очень высокий сигнал), или особенности вашей системы (ячейка может иногда делиться на три вместо двух), но они также могут быть результатом механизма, который никто никогда не рассматривал, потому что это редко, и вы проводите исследования, Это означает, что некоторые вещи, которые вы делаете, просто еще не известны.
В идеале вы тратите время на изучение каждого выброса и удаляете его из своего набора данных только тогда, когда понимаете, почему он не подходит для вашей модели. Это отнимает много времени и субъективно в том смысле, что причины сильно зависят от эксперимента, но альтернатива еще хуже: если вы не понимаете, откуда взялись выбросы, у вас есть выбор между тем, чтобы выбросы "испортили" ваши результаты, или определить какой-то «математически строгий» подход, чтобы скрыть недостаток понимания. Другими словами, преследуя «математическую строгость», вы выбираете между отсутствием значительного эффекта и не попаданием на небеса.
РЕДАКТИРОВАТЬ
Если все, что у вас есть, это список чисел, не зная, откуда они берутся, вы не сможете определить, является ли какая-то точка данных выбросом, потому что вы всегда можете предположить распределение, где все данные являются выбросами.