В моей работе, когда люди ссылаются на «среднее» значение набора данных, они обычно ссылаются на среднее арифметическое (то есть «среднее» или «ожидаемое значение»). Если бы я указал среднее геометрическое , люди, вероятно, подумали бы, что я глупый или бесполезный, так как определение «среднего» известно заранее.
Я пытаюсь определить, есть ли несколько определений «медианы» набора данных. Например, одно из определений, предоставленных коллегой для нахождения медианы набора данных с четным числом элементов, будет следующим:
Алгоритм «А»
- Разделите количество элементов на два, округлите вниз.
- Это значение является индексом медианы.
- т.е. для следующего набора медиана будет
5
. [4, 5, 6, 7]
Это, кажется, имеет смысл, хотя аспект округления кажется немного произвольным.
Алгоритм 'B'
В любом случае, другой коллега предложил отдельный алгоритм, который был в его учебнике статистики (необходимо получить имя и автора):
- Разделите количество элементов на 2 и сохраните копии округленных вверх и округленных вниз целых чисел. Назовите их
n_lo
иn_hi
. - Возьмите среднее арифметическое элементов в
n_lo
иn_hi
. - т.е. для следующего набора медиана будет
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Это кажется неправильным, так как медианное значение, 5.5
в данном случае, фактически отсутствует в исходном наборе данных. Когда в некотором тестовом коде мы заменили алгоритм «A» на «B», он ужасно сломался (как мы и ожидали).
Вопрос
Существует ли формальное «имя» для этих двух подходов к вычислению медианы набора данных? то есть "медиана" меньше двух "по сравнению с медианой" средние элементы середины элементов и создание новых данных "?