Масштабирование данных на разных порядках для построения графика


9

Глядя на следующий набор данных:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Меня попросили нарисовать это на графике, используя Date с осью X и остальными данными на оси Y. Проблема в том, что масштаб данных резко отличается. где количество посещений исчисляется тысячами, а количество созданных заказов - наименьшим, данные плохо отображаются на графике.

Мне было интересно, что статистик будет делать в этом сценарии, я мог бы разделить Посещения на 1000, а затем вставить описание (Посещения (K)), но затем у меня возникла та же проблема с Созданными Тележками, поскольку они сотнями, а все остальное в десятках.

Что это делается в этом сценарии?

Ответы:


14

В начале не является неразумным построение линейных диаграмм в виде серии небольших кратных чисел с разными масштабами для оси Y, но с выравниванием оси X (даты). введите описание изображения здесь

Я думаю, что это хорошее начало, так как оно позволяет исследовать необработанные данные и позволяет сравнивать тренды между различными линейными графиками. IMO: сначала вы должны посмотреть на необработанные данные, а затем подумать о преобразованиях или способах нормализации графиков, чтобы они были сопоставимы после изучения необработанных данных.

Как уже упоминал Кинг, кажется, что ваши переменные имеют естественный порядок, основанный на именах и числах, и, предполагая, что это уместно, я создал три новые переменные на основе процента, конвертированного в каждом состоянии. Новые переменные являются;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Создание процентов - это способ приблизить ряды к общему масштабу, но даже тогда размещение всех линий на одном графике (как показано ниже) по-прежнему затрудняет эффективную визуализацию ряда. Уровень и вариация созданных орденов и карет превращаются в серии карликов, что в других сериях. Вы не можете увидеть какие-либо изменения в сериях тележек, созданных в этом масштабе (и я подозреваю, что именно это вас больше всего интересует). введите описание изображения здесь

Итак, еще раз, IMO лучший способ проверить это - использовать разные шкалы. Ниже приведен процентный график с использованием разных шкал.

введите описание изображения здесь

С этой графикой мне кажется, что между сериями нет какой-либо реальной значимой корреляции, но у вас есть много интересных вариаций в каждой серии (особенно в преобразованной пропорции). Что с тобой 2011-11-13? У вас была гораздо меньшая доля созданного заказа, но каждый из созданных заказов был преобразованной корзиной. Были ли у вас какие-либо другие вмешательства, которые могли бы объяснить тенденции в посещениях сайта или в пропорциях или процентах созданных тележек?

Это всего лишь предварительный анализ данных, и для того, чтобы предпринять какие-то дополнительные шаги, мне понадобится более глубокое понимание данных (хотя я надеюсь, что это хорошее начало). Вы могли бы нормализовать линейные диаграммы другими способами, чтобы иметь возможность строить их в сопоставимом масштабе, но это трудная задача, и я думаю, что это можно сделать, если эффективно выбирать произвольные шкалы на основе того, что является информативным, учитывая данные, а не выбирать некоторые. схемы нормализации по умолчанию. Еще одно интересное приложение одновременного просмотра множества линейных графиков - это горизонтальные графики , но это больше для одновременного просмотра множества различных линейных графиков.


Спасибо за детали в вашем ответе, у меня изначально было несколько графиков. Мои боссы решили, что они хотели бы, чтобы все серии на графике (я думаю, что это, вероятно, слишком много серий, но это не я буду смотреть на это :)) Я думаю, что я собираюсь рассмотреть вопрос о нормализации данных, возможно, в 0 - 1. Они хотят использовать график только для просмотра трендов, данные таблицы обычно отображаются под графиком.
Майк

@ Майк, это разумный запрос. Нормализация серии не должна менять тренд (только уровень и вариация каждой серии). Надеюсь, вы получите более проницательные ответы на вопрос о том, как нормализовать серию в несколько эффективных, но все же значимых способов. Просто предостережение, хотя, как правило, вы хотите построить только 3-5 линий на одном графике, все эти сравнения очень сложно выполнить (хотя небольшие кратные значения являются решением этой проблемы).
Энди W

1
@Mike Да, в этом случае (просто визуализация данных без чисел) вы можете просто выразить свои данные в минимальной / максимальной шкале, как это делается на параллельных дисплеях . Показывать числа под таблицей - тоже хорошая идея.
chl

1
Просто еще одно замечание о нормализации до минимальной / максимальной шкалы, хотя, как предложил @chl. Хорошо сначала увидеть необработанные данные, если у вас есть какой-то большой выброс, который вы можете рассмотреть, не включив это значение в процесс нормализации (хотя это должно быть очевидно, если вы сделаете это в нормализованном графе, например, если у вас есть линейный график с одним высоким / низким значением, а остальные плоские). Я думаю, что Michael Friendly согласится включить таблицу под графиком.
Энди Ш

2

Вы можете иметь 2 отдельные оси Y, Visits (k) и Тележки, созданные в одной, а две другие в другой (или в зависимости от того, что соответствует вашим целям).

Это определенно не элегантный метод, но я помню, как делал это много лет назад, когда просто хотел сравнить тренды во времени.

ИЛИ

Вы можете просто изобразить процентное изменение во времени, если оно соответствует вашей цели.


Я рассмотрел маршрут, который вы упомянули, с двумя разными осями Y, но что мне не понравилось в этом, так это: если бы была представлена ​​новая серия, которая не помещалась бы на одной из двух осей Y, я, вероятно, застрял бы. спасибо за предложение, и, может быть, в другой раз я рассмотрю это подробнее :)
Майк

Как насчет второго предложения об использовании процентов? то есть индексирование всего на 100 в дату начала (или любую дату, которая делает ваш график красивым). Вы можете добавить столько новых серий, сколько захотите!
король

Это вариант, в настоящее время я стараюсь выяснить, как нормализовать эти данные и работает ли он. если это не удастся, я покажу идею процентного соотношения :)
Mike

2

В конце я решил нормализовать данные, разделив каждое значение на максимальное значение, а затем умножив на 100.

  1. Найдите максимальное значение:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Разделите каждое число на максимальное, а затем умножьте на 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Затем я нанес это на график, очевидно, это только демонстрирует тенденцию, и у пользователя есть таблица данных внизу страницы.


0

Это был бы и мой подход - настроить разные размеры на один и тот же масштаб путем деления на X, но я бы использовал среднее значение, а не максимальное или минимальное значение. Причина в том, что при добавлении данных с течением времени ваш максимальный или минимальный значения, вероятно, изменятся, и тогда на этот раз то, что было 100% на последнем графике, будет чем-то другим - график не так легко совместим с предыдущими графиками - вы используете avg, тогда изменения не так радикальны.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.