Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной матрицы . Мне любопытно (не) преимущества использования одного метода перед другим.
Моя интуиция подсказывает мне, что самое большое различие между ними заключается в следующем: когда набор данных «мал» (в статистическом смысле), надежный PCA даст ковариацию более низкого ранга, тогда как надежная оценка ковариационной матрицы вместо этого даст полную ранговая ковариация из-за регуляризации Ледуа-Вольфа. Как это в свою очередь влияет на обнаружение выбросов?