Несколько хороших ответов все еще оставляют место для дальнейших комментариев.
Во-первых, никто не возражал против идеи, что медиана предназначена для устранения выбросов, но я это уточню. Предполагаемый смысл очевиден, но для реальных данных легче быть более сложным. Самое большее, медиана предназначена для того, чтобы игнорировать или игнорировать выбросы, но даже это не гарантируется. Например, с оценками 1 1 1 5 5 5 медиана и среднее согласуются на 3, поэтому все может показаться хорошим. Но дополнительные 5 уменьшат медиану до 5, а дополнительные 1 приведут медиану к 1. Среднее значение сместится примерно на 0,286 в каждом случае. Следовательно, среднее здесь более устойчиво, чем медианное. Пример можно отклонить как необычный, но это не возмутительно. Дело не оригинальное, естественно. Одним из мест, где он сделан, является Мостеллер, Ф. и Тьюки, Дж. У. 1977. Анализ данных и регрессия. Рединг, Массачусетс: Аддисон-Уэсли, с. 34-35.
Во-вторых, обрезанные средства были упомянуты, и идея заслуживает большего толчка. Среднее значение и медиана не обязательно должны быть строгими альтернативами, поэтому аналитик должен выбрать (проголосовать за) один или другой. Вы можете рассмотреть все возможные усеченные средства на основе усечения определенного количества значений в каждом хвосте . В таблице показано # количество значений, включенных в расчет среднего значения:
+----------------------------+
| number # trimmed mean |
|----------------------------|
| 0 16 4.0625 |
| 1 14 4.214286 |
| 2 12 4.416667 |
| 3 10 4.6 |
| 4 8 4.75 |
| 5 6 4.833333 |
| 6 4 5 |
| 7 2 5 |
+----------------------------+
Основная картина здесь в том, что вы можете выбрать свою ставку дисконтирования (игнорируйте столько значений в каждом хвосте, сколько подозреваете) в качестве своего рода страховки от риска быть выключенным из-за экстремальных значений. То, что я вижу, - это довольно плавный градиент между средним и медианным, который здесь ожидается, потому что все возможные значения 1, 2, 3, 4, 5 присутствуют в данных. Ожидается большой скачок в последовательности с изолированным выбросом.
С обрезанными средствами нет обязанности обрезать равные числа в каждом хвосте, но я не буду на этом останавливаться.
В-третьих, пример - обзоры Amazon. Контекст всегда уместен в руководстве, как вы хотите, чтобы данные суммировались . В случае обзоров Amazon лучший ответ - прочитать отзывы! Как высокие, так и низкие оценки могут быть ложными (косвенно: автор этой книги - мой друг) и / или не иметь отношения к вашему решению (явно: повторный продавец относился ко мне плохо), для меня нет очевидного Вывод о том, как суммировать такие данные, и, на самом деле, показать вам, что Amazon является максимально информативным.
В-четвертых, и самое элементарное, но также и фундаментальное из всех, кто заставляет вас выбирать? Иногда следует сообщать среднее и медиану (и, как уже говорилось, график распределения).