Если так, то? Если нет, то почему?
Для выборки на линии медиана минимизирует общее абсолютное отклонение. Казалось бы, естественно расширить определение до R2 и т. Д., Но я никогда не видел его. Но потом я уже давно на левом поле.
Если так, то? Если нет, то почему?
Для выборки на линии медиана минимизирует общее абсолютное отклонение. Казалось бы, естественно расширить определение до R2 и т. Д., Но я никогда не видел его. Но потом я уже давно на левом поле.
Ответы:
Я не уверен, что существует одно общепринятое определение для многомерной медианы. Я знаком с медианной точкой Оджи , которая минимизирует сумму объемов симплексов, образованных в подмножествах точек. (См. Ссылку для технического определения.)
Обновление: сайт, на который ссылаются для определения Oja выше, также имеет хороший документ, охватывающий ряд определений многомерной медианы:
Как сказал @Ars , нет принятого определения (и это хороший момент). Существуют общие альтернативы семейств способов обобщения квантилей на , я думаю, наиболее значительными из них являются:
Обобщение квантильного процесса. Пусть - эмпирическая мера (= доля наблюдений в A ). Затем, с A хорошо выбранным подмножеством борелевских множеств в R d и λ действительной оценочной мерой, вы можете определить эмпирическую квантильную функцию:
Предположим, вы можете найти один который дает вам минимум. Тогда множество (или элемент множества) 1 / 2 - ε ∩ 1 / 2 + ε дает медиану , когда ε сделана достаточно мала. Определение медианы восстанавливается при использовании A = ( ] - ∞ , x ] x ∈ R ) и λ ( ] - ∞ , x ] ) = x . ArsЯ думаю, что ответ попадает в эту структуру ... расположение в полупространстве Тьюки можно получить, используя и λ ( Н х ) = х (с х ∈ R , ∈ R d ).
вариационное определение и M-оценка . Идея здесь заключается в том, что квантиль Q α случайной величины Y в R может быть определен посредством вариационного равенства.
Наиболее распространенным определением является использование функции квантильной регрессии (также известной как потеря пинбола, угадайте, почему?) Q α = a r g inf x ∈ R E [ ρ α ( Y - x ) ] . Случай α = 1 / +2 дает р 1 / 2 ( у ) = | у | и вы можете обобщить это на более высокий размер, используя l 1расстояния, как сделано в @Srikant Ответ . Это теоретическая медиана, но дает вам эмпирическую медиану, если вы замените ожидание эмпирическим ожиданием (среднее).
Но Колшинский предлагает использовать преобразование Лежандра-Феншеля: так как где f ( s ) = 1дляева∈R. Он приводит много глубоких причин для этого (см. Статью;)). Обобщая это на более высокие размеры требуют работа с векторнымальфаи заменаsальфана⟨сек,альфа⟩но вы можете взятьα=(1/+2,...,1/+2).
Очевидно, что между различными формулировками существуют мосты. Они не все очевидны ...
Существуют различные способы обобщения понятия медианы для более высоких измерений. Еще не упоминалось, но было предложено давно, это построить выпуклую оболочку, очистить ее и выполнять итерацию так долго, как вы можете: то, что осталось в последнем корпусе, - это набор точек, которые все являются кандидатами на " медианы «.
«Удары головой» - еще одна более поздняя попытка (ок. 1980 г.) построить надежный центр для 2D-облака точек. (Ссылка на документацию и программное обеспечение, доступное в Национальном институте рака США.)
Основная причина, по которой существует несколько различных обобщений и нет единственного очевидного решения, состоит в том, что R1 можно упорядочить, а R2, R3, ... не может быть.
Геометрическая медиана - это точка с наименьшим средним евклидовым расстоянием от образцов.
Медиана полупространства Тьюки может быть расширена до> 2 измерений с помощью DEEPLOC, алгоритма Стрейфа и Руссее; смотрите здесь для деталей.
Алгоритм используется для эффективного приближения точки наибольшей глубины; Наивные методы, которые пытаются определить это точно, обычно идут вразрез с (вычислительной версией) «проклятием размерности», где время выполнения, необходимое для вычисления статистики, растет экспоненциально с числом измерений пространства.
Определение, которое близко к этому, для унимодальных распределений, является медианой полупространства Тьюки
Проблема в том, что нам нужно определение того, что мы подразумеваем под:
Вышеуказанное является в некотором смысле метрикой расстояния, и возможны несколько возможных определений кандидатов.
Вычисление медианы по евклидовой метрике потребует вычисления ожиданий вышеупомянутого в отношении плотности суставов. ,
Вычисление медианы в случае метрики такси включает вычисление медианы а также отдельно, так как метрика отделима в а также ,