Каким лучшим методам следует руководствоваться при подготовке участков?


40

Я обычно делаю свой собственный особенный выбор при подготовке участков. Тем не менее, мне интересно, есть ли лучшие практики для создания участков.

Примечание: комментарий Роба к ответу на этот вопрос очень актуален здесь.

Ответы:


23

Принципы Tufte - очень хорошая практика при подготовке участков. Смотрите также его книгу Красивые доказательства

Принципы включают в себя:

  • Сохраняйте высокое соотношение данных и чернил
  • Удалить чартовый чанк
  • Дайте графическому элементу несколько функций
  • Имейте в виду плотность данных

Термин для поиска является визуализация информации


4
Визуальное отображение количественной информации Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) лучше, чем Beautiful Evidence IMO. Все четыре из его книг хороши, и если у вас есть возможность посетить один из его курсов, сделайте это.
Стивен Тернер

5
Я согласен с большей частью того, что говорит Туфте, но я должен сказать, его низкие данные: чернильные коробки просто идиотские. Я думаю, что они занимают у меня 3-4 раза больше времени, чем стандартные блокпосты. Значения по умолчанию R намного лучше (хотя линии на концах хвостов не нужны). Традиционные коробчатые участки имеют дополнительное преимущество, заключающееся в том, что они могут представлять размер выборки (с шириной) и стандартные отклонения (с выемками).
naught101

2
+1 @ naught101 несколько других разделяют это мнение по адресу SO: stackoverflow.com/questions/6973394/…
Бен,

15

Мы могли бы остаться здесь весь день, обозначая лучшие практики, но вы должны начать с чтения Tufte. Моя основная рекомендация:

Будь проще.

Часто люди пытаются загрузить свои графики информацией. Но на самом деле у вас должна быть только одна основная идея, которую вы пытаетесь донести, и если кто-то почти сразу не получает ваше сообщение, вам следует переосмыслить то, как вы его представили. Так что не начинайте работать над своим графиком, пока само сообщение не станет понятным. Бритва Оккама применима и здесь.


1
Я согласен с большинством в этом вопросе, но я думаю: «Будьте проще». может быть неясно. Ваша главная мысль в том, что вы должны знать, что вы хотите, чтобы график передал. "Будь проще." выдвигает некоторые другие идеи, такие как «Соотношение данных и чернил должно быть высоким», которое поощряет Туфте, и «Представьте не более трех переменных», которое Туфте не одобряет.
Томас Левин

Ясно, что этот совет намного лучше, чем противоположный. Но есть ситуации, в которых график обязательно сложен и требует детального, тщательного, вдумчивого изучения. Но осложнение само по себе должно быть максимально простым. Например, 25 графиков в матрице 5 × 5 могут потребовать длительного изучения, но идея относительно того, что на каждом из них показаны только некоторые данные, сравнительно легко понять.
Ник Кокс

12

Одно правило, которому я не всегда следую, но которое иногда полезно, - это принимать во внимание, что вполне вероятно, что ваш сюжет в какой-то момент в будущем будет

  • отправлено по факсу,
  • ксерокопия и / или
  • воспроизводится в черно-белом.

Вы должны попытаться сделать свои графики достаточно четкими, чтобы, даже если они будут неточно воспроизведены в будущем, информация, которую пытается передать сюжет, все еще будет разборчивой.


14
Я думаю, что вы имеете в виду отправлено по факсу в какой-то момент в прошлом ;)
Хэдли

+1 за это. Ваш оригинальный сюжет, сердце вашей газеты, не должно быть совершенно неразборчивым, потому что я распечатал его.
Fomite

этот ответ решает аналогичную проблему.
naught101

8

В дополнение к четкому сообщению я всегда стараюсь вспомнить уловку:

  • Размер шрифта для надписей и легенд должен быть достаточно большим, предпочтительно тот же размер шрифта и шрифт, которые использовались в окончательной публикации.
  • ширина линий должна быть достаточно большой (линии в 1 пункт имеют тенденцию исчезать, если графики сокращаются лишь незначительно). Я пытаюсь перейти на ширину линий от 3 до 5 пт.
  • при построении нескольких наборов данных / кривых с цветом убедитесь, что они могут быть поняты при печати в черно-белом режиме, например, с использованием различных символов или стилей линий в дополнение к цвету.
  • всегда используйте формат без потерь (или близкий к без потерь), например векторный формат, такой как pdf, ps или svg или png или gif с высоким разрешением (jpeg не работает вообще и никогда не был разработан для штриховой графики).
  • подготовить графику в окончательном соотношении сторон для использования в публикации. Изменение соотношения сторон может привести к появлению раздражающего шрифта или формы символов.
  • всегда удаляйте бесполезные помехи из программы построения графиков, такие как неиспользуемая информация гистограммы, линии тренда (вряд ли полезны) или заголовки по умолчанию.

Я настроил свое программное обеспечение для печати (matplotlib, ROOT или root2matplotlib), чтобы сделать большую часть этого права по умолчанию. До того, как я использовал, gnuplotкоторый нуждался в дополнительной заботе здесь.


8

В области физики существует правило, согласно которому весь документ / отчет должен быть понятен только при быстром взгляде на графики. Поэтому я бы в основном советовал, чтобы они говорили сами за себя.
Это также подразумевает, что вы всегда должны проверять, знакома ли ваша аудитория с каким-то сюжетом - я однажды допустил большую ошибку, предполагая, что каждый ученый знает, что такое коробочные сюжеты, а затем потратил час, чтобы объяснить это.


Сочувствующие к опыту рамочного графика, но это подразумевает (а) использование относительно простого варианта (например, показ медианы, квартилей, точек 5% и 95% и всех точек данных за пределами), а не показа чего-либо на основе соглашения, сосредоточенного на 1,5 IQR; (б) добавление подписи, делающей условные обозначения явными.
Ник Кокс

6

Вот мои рекомендации, основанные на самых распространенных ошибках, которые я вижу (в дополнение ко всем другим упомянутым хорошим моментам)

  • Используйте точечные графики, а не линейные, если порядок элементов не имеет значения.
  • При подготовке графиков, которые должны сравниваться, используйте одинаковый масштабный коэффициент для всех них.
  • Еще лучше - найдите способ объединить данные в одном графике (например, блокпосты лучше, чем несколько гистограмм, сравнивать большое количество распределений).
  • Не забудьте указать единицы
  • Используйте легенду только в том случае, если вам необходимо - как правило, проще обозначать кривые напрямую.
  • Если вы должны использовать легенду, переместите ее в сюжет, в пустую область.
  • Для линейных графиков стремитесь к соотношению сторон, которое дает линии, которые находятся примерно под углом 45 ° со страницей .

«Боксплоты лучше, чем несколько гистограмм, сравнивать большое количество распределений» - это верно только в том случае, если ваши данные являются одномодальными и не содержат эксцесс или некоторые другие функции, которые не могут быть зафиксированы боксплотами ..
naught101

6

Посмотрите на графическую библиотеку R, ggplot2. Подробности на веб-странице http://had.co.nz/ggplot2/ Этот пакет генерирует очень хорошие графики по умолчанию, которые соответствуют принципам Tufte, рекомендациям Кливленда и цветному пакету Ihaka.


6

Если вы черчите цвета, учтите, что люди, страдающие дальтонизмом, могут испытывать затруднения при различении элементов по цвету. Так:

  • Используйте стили линий, чтобы различать линии.
  • Используйте дополнительный вес элементов, сделайте ширину линии не менее 2 пт и т. Д.
  • Используйте разные маркеры, а также цвета, чтобы различать точки.
  • Используйте метки и аннотации, ссылаясь также на положение и стиль.
  • Обращаясь к элементам графика в тексте, опишите их по цвету, относительному положению и стилю: «красная, верхняя, пунктирная кривая»
  • Используйте палитру для дальтоников. См. Http://www.vischeck.com/vischeck/ , http://jfly.iam.u-tokyo.ac.jp/color/#pallet . У меня есть простая реализация Python палитры в последней ссылке на code.google.com, ищите python-cudtools

Также учтите тот факт, что кому-то, возможно, придется распечатать его на принтере в оттенках серого. Я делал это раньше - я использовал цвета по умолчанию ggplot2 (которые отлично смотрятся на экране) для задания, которое я затем распечатал в черно-белом цвете, и половина цветов не могла быть отличена от других! * румянец *
ничто101

4

Это замечательные предложения. Мы собрали много материалов по адресу http://biostat.mc.vanderbilt.edu/StatGraphCourse . Группа статистиков в фармацевтической промышленности, научных кругах и FDA также создает ресурс, который будет очень полезен для клинических испытаний и связанных с ними исследований. Через месяц будет представлено много нового материала, но многое уже есть - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Моя любимая графическая книга « Элементы графических данных » Уильяма Кливленда.

С точки зрения программного обеспечения, на мой взгляд, трудно превзойти пакеты ggplot2 и решетки R. Stata также поддерживает отличную графику.


3

Это также зависит от того, где вы не хотите публиковать свои сюжеты. Вы избавите себя от многих проблем, посоветовавшись с руководством для авторов, прежде чем создавать какие-либо сюжеты для журнала.

Также сохраняйте графики в формате, который легко изменить, или сохраните код, который вы использовали для их создания. Скорее всего, вам нужно внести исправления.



2

Другие ответы слишком формальны, чтобы быть убедительными, поэтому позвольте мне дать более общий ответ. Я боролся с этим вопросом некоторое время. Я предлагаю этот процесс:

  1. Знай свое сообщение
  2. Знай свою аудиторию
  3. Знай свои ограничения
  4. Приспособьте свое сообщение к своей аудитории, учитывая ваши ограничения

Я скептически отношусь к общим претензиям типа «будь проще» - что это значит? Ну, это зависит от аудитории. Некоторые зрители съедят стиль Tufte. Но некоторые зрители время от времени ценят маленькую чартовую диаграмму. Некоторым людям скучно на участках рассеяния. Некоторые люди любят красочные фоны. Разве так неправильно привлекать их немного, даже если вы ставите под угрозу «эстетическую» чистоту? Это решать вам.

Реакция вашей аудитории будет важной частью обратной связи, но не единственной. Если вы найдете способ измерить их понимание до и после презентации, вы начнете понимать, какое влияние вы оказали.

«Правильный» ответ будет зависеть от таких вопросов:

  • Какие медиа вы будете использовать?

  • Вы создаете статические или интерактивные сюжеты?

  • Вы пытаетесь рассказать заранее определенную историю (экспозицию) или поощряете эксперименты (исследование)?

  • В какой степени вы хотите, чтобы аудитория сделала свои собственные выводы?

  • В какой степени вы хотите, чтобы аудитория следовала и была убеждена вашей историей?

  • В какой степени вы хотите, чтобы аудитория оспаривала ваши выводы?

Таким образом, разработайте ваши материалы сознательно с учетом вашего сообщения, аудитории и ограничений.


«Заниматься» или отвлекать? Цвет может быть в порядке, но вы в конечном итоге здесь о данных, и эстетика должна обслуживать данные, а не наоборот.
naught101

2

Кажется, я помню, что Туфте упомянул одну вещь, которой нет в других ответах, - это сопоставление - то есть расположение, направление, размер и т. Д. На вашем графике представляют реальность . То, что находится на графике, должно быть в реальном мире. То, что является большим, должно быть большим (помните, что области должны представлять области, а объемы - объемы. Никогда не пытайтесь представлять скалярное значение по области, это очень неоднозначно!). Это также относится к цветам, формам и т. Д., Если они актуальны.

Интересным примером является график «серия юбок» здесь: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Хотя технически это правильно, и «более высокая» длина юбки занимает более высокое положение на графике, это на самом деле довольно запутанно, потому что длина юбки начинается сверху и уменьшается (в отличие от людей или деревьев, где мы измеряем высоту от земля). Таким образом, увеличенная длина юбки фактически представляет меньшее значение:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

введите описание изображения здесь

Есть, как всегда, трудности. Например, мы обычно рассматриваем время для продвижения вперед, и, по крайней мере, на западе мы читаем слева направо, поэтому наши графики временных рядов также обычно текут слева направо по мере увеличения времени. Так что же произойдет, если вы захотите представить что-то, что лучше всего представлено в боковом направлении (например, измерения чего-то с востока на запад), с течением времени? В этом случае вы должны пойти на компромисс и либо изобразить время движения вверх или вниз (что, опять же, зависит от культурного восприятия), либо выбрать отображение вашей боковой переменной вверх / вниз на графике.


1
Пример компромисса между временем и пространством можно найти в книге «Создание карт» (критическое обсуждение и примеры, приведенные здесь .
Энди У.

Хороший (ужасный) пример! Карты поднимают другой, более сложный компромисс: пытаясь изобразить 2 измерения + время на двухмерной странице (например, карты континентального дрейфа). Довольно сложно. Но я думаю, это то, для чего нужны анимации :)
naught101

Ваш показательный пример позволяет упомянуть о двух дополнительных моментах, которые часто возникают. 1. С временной осью заголовок или метка типа «Время» обычно избыточны. 2. Названия или ярлыки, такие как «серия юбок», всегда могут быть улучшены с помощью краткого, но информативного объяснения, включая, при необходимости, единицы измерения.
Ник Кокс

1

Это зависит от того, каким образом будут обсуждаться участки.

Например, если я рассылаю графики для группового собрания, которое будет проводиться с вызывающими абонентами из разных мест, я предпочитаю собирать их вместе в Powerpoint, а не в Excel, чтобы легче было переворачивать.

Для технических вызовов один на один я выделю что-то в excel, чтобы клиент мог отодвинуть график и просмотреть необработанные данные. Или я могу ввести значения p в ячейки вдоль коэффициентов боковой регрессии, например

Имейте в виду: сюжеты дешевы, особенно для слайд-шоу или для отправки по электронной почте группе. Я предпочел бы сделать 10 четких графиков, которые мы можем пролистать, чем 5 графиков, на которых я пытаюсь разместить разные когорты (например, «мужчины и женщины») на одном графике.


1

Я бы добавил, что выбор графика должен отражать тип статистического теста, используемого для анализа данных. Другими словами, любые характеристики данных, использованные для анализа, должны быть показаны визуально - поэтому вы бы отобразили средние значения и стандартные ошибки, если бы использовали t-критерий, но коробочные диаграммы, если бы использовали критерий Манна-Уитни.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.