Блокпост предназначен для суммирования относительно небольшого набора данных таким образом, чтобы
Центральная ценность.
Распространение «типичных» значений.
Отдельные ценности, которые настолько сильно отличаются от центральной ценности по отношению к разбросу, что их выделяют для особого внимания и отдельно идентифицируют (например, по имени). Они называются «идентифицированными ценностями».
Это должно быть сделано надежным способом: это означает, что блокпост не должен выглядеть заметно иначе, когда одно или относительно небольшая часть значений данных изменяется произвольно.
Решение, принятое его изобретателем Джоном Тьюки, заключается в систематическом использовании статистики заказов - данных, отсортированных по убыванию. Для простоты (он делал вычисления мысленно или с карандашом и бумагой) Тьюки сосредоточился на медианах : средние значения групп чисел. (Для партий с четным количеством единиц Тьюки использовал среднюю точку двух средних значений.) Медиана устойчива к изменениям до половины данных, на которых она основана, что делает ее превосходной в качестве надежной статистики. Таким образом:
Центральное значение оценивается с медианой всех данных.
Спрэд оценивается с разницей между медиан «верхней половины» - все данные , равной или выше среднего - и «нижней половины» - все данные равны или меньше , чем медиана. Эти две медианы называются верхней и нижней «петлями» или «четвертями». В наши дни их, как правило, заменяют вещи, называемые квартилями (которые, увы, не имеют универсального определения).
Невидимые заборы для экранирования выбросов устанавливаются в 1,5 и 3 раза больше, чем за пределами петель (вдали от центрального значения).
- «Значение на каждом конце, ближайшем к внутреннему ограждению, но все еще находящемуся внутри, является« смежным ».»
- Значения за пределами первого забора называются «выбросами».
- Значения за вторым забором "далеко".
(Те, кто достаточно взрослый , чтобы помнить хиппи Арго 60-х, поймут шутку.)
Поскольку разброс представляет собой разность значений данных, эти заборы имеют те же единицы измерения, что и исходные данные: в этом вопросе понимается «расстояние».
Что касается значений данных для идентификации, Тьюки написал
Мы можем, по крайней мере, идентифицировать экстремальные значения, и могли бы преуспеть, чтобы идентифицировать еще несколько.
Любой графический метод для отображения медианы, шарниров и идентифицированных значений, вероятно, заслуживает того, чтобы называться «коробчатым графиком» (первоначально, «сюжет с рамками и усами»). Заборы обычно не изображены. Дизайн Тьюки состоит из прямоугольника, описывающего шарниры с «талией» на медиане. Ненавязчивые линейные «усы» простираются от петель к самым внутренним идентифицированным значениям (как над, так и под рамкой). Обычно эти самые внутренние идентифицированные значения являются смежными значениями, определенными выше.
Следовательно, внешний вид коробчатого графика по умолчанию состоит в том, чтобы распространять усы на наиболее экстремальные непостоянные значения данных и идентифицировать (посредством текстовых меток) данные, содержащие концы усов и все выбросы. Например, вулкан Тупунгатито - это высокое смежное значение для данных о высоте вулкана, изображенных справа на рисунке: усы на этом останавливаются. Тупунгатито и все более высокие вулканы идентифицированы отдельно.
Чтобы данные отображались достоверно, расстояние на графике пропорционально разнице в значениях данных. (Любое отклонение от прямой пропорциональности вводит «Фактор Лжи» в терминологии Туфте (1983).)
Эти два коробочных графика из книги Тьюки EDA (стр. 41) иллюстрируют компоненты. Примечательно, что он идентифицировал непрямые значения в верхнем и нижнем краях набора данных состояний слева и одно низкое непостоянное значение высот вулкана справа. Это иллюстрирует взаимодействие правил и суждений, которые пронизывают книгу.
(Вы можете сказать, что эти идентифицированные данные не являются отдаленными, потому что вы можете оценить расположение заборов. Например, петли высот состояний около 11 000 и 1 000, что дает разброс около 10 000. Умножение на 1,5 и 3 дает расстояния 15 000 и 30 000. Таким образом, невидимая верхняя изгородь должна быть около 11 000 + 15 000 = 26 000, а нижняя изгородь, в 1000 - 15 000, будет ниже нуля. Дальние заборы будут около 11 000 + 30 000 = 41 000 и 1000 - 30 000 = -29000).
Ссылки
Туфте, Эдвард. Визуальное отображение количественной информации. Чешир Пресс, 1983.
Тьюки, Джон. Глава 2, EDA . Аддисон-Уэсли, 1977.