Я обычно делаю свой собственный особенный выбор при подготовке участков. Тем не менее, мне интересно, есть ли лучшие практики для создания участков.
Примечание: комментарий Роба к ответу на этот вопрос очень актуален здесь.
Я обычно делаю свой собственный особенный выбор при подготовке участков. Тем не менее, мне интересно, есть ли лучшие практики для создания участков.
Примечание: комментарий Роба к ответу на этот вопрос очень актуален здесь.
Ответы:
Принципы Tufte - очень хорошая практика при подготовке участков. Смотрите также его книгу Красивые доказательства
Принципы включают в себя:
Термин для поиска является визуализация информации
SO
: stackoverflow.com/questions/6973394/…
Мы могли бы остаться здесь весь день, обозначая лучшие практики, но вы должны начать с чтения Tufte. Моя основная рекомендация:
Будь проще.
Часто люди пытаются загрузить свои графики информацией. Но на самом деле у вас должна быть только одна основная идея, которую вы пытаетесь донести, и если кто-то почти сразу не получает ваше сообщение, вам следует переосмыслить то, как вы его представили. Так что не начинайте работать над своим графиком, пока само сообщение не станет понятным. Бритва Оккама применима и здесь.
Одно правило, которому я не всегда следую, но которое иногда полезно, - это принимать во внимание, что вполне вероятно, что ваш сюжет в какой-то момент в будущем будет
Вы должны попытаться сделать свои графики достаточно четкими, чтобы, даже если они будут неточно воспроизведены в будущем, информация, которую пытается передать сюжет, все еще будет разборчивой.
В дополнение к четкому сообщению я всегда стараюсь вспомнить уловку:
Я настроил свое программное обеспечение для печати (matplotlib, ROOT или root2matplotlib), чтобы сделать большую часть этого права по умолчанию. До того, как я использовал, gnuplot
который нуждался в дополнительной заботе здесь.
В области физики существует правило, согласно которому весь документ / отчет должен быть понятен только при быстром взгляде на графики. Поэтому я бы в основном советовал, чтобы они говорили сами за себя.
Это также подразумевает, что вы всегда должны проверять, знакома ли ваша аудитория с каким-то сюжетом - я однажды допустил большую ошибку, предполагая, что каждый ученый знает, что такое коробочные сюжеты, а затем потратил час, чтобы объяснить это.
Вот мои рекомендации, основанные на самых распространенных ошибках, которые я вижу (в дополнение ко всем другим упомянутым хорошим моментам)
Посмотрите на графическую библиотеку R, ggplot2. Подробности на веб-странице http://had.co.nz/ggplot2/ Этот пакет генерирует очень хорошие графики по умолчанию, которые соответствуют принципам Tufte, рекомендациям Кливленда и цветному пакету Ihaka.
Если вы черчите цвета, учтите, что люди, страдающие дальтонизмом, могут испытывать затруднения при различении элементов по цвету. Так:
Это замечательные предложения. Мы собрали много материалов по адресу http://biostat.mc.vanderbilt.edu/StatGraphCourse . Группа статистиков в фармацевтической промышленности, научных кругах и FDA также создает ресурс, который будет очень полезен для клинических испытаний и связанных с ними исследований. Через месяц будет представлено много нового материала, но многое уже есть - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Моя любимая графическая книга « Элементы графических данных » Уильяма Кливленда.
С точки зрения программного обеспечения, на мой взгляд, трудно превзойти пакеты ggplot2 и решетки R. Stata также поддерживает отличную графику.
Это также зависит от того, где вы не хотите публиковать свои сюжеты. Вы избавите себя от многих проблем, посоветовавшись с руководством для авторов, прежде чем создавать какие-либо сюжеты для журнала.
Также сохраняйте графики в формате, который легко изменить, или сохраните код, который вы использовали для их создания. Скорее всего, вам нужно внести исправления.
Не используйте динамитные сюжеты: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , используйте скрипичные сюжеты или аналогичные (семейство боксов)
Другие ответы слишком формальны, чтобы быть убедительными, поэтому позвольте мне дать более общий ответ. Я боролся с этим вопросом некоторое время. Я предлагаю этот процесс:
Я скептически отношусь к общим претензиям типа «будь проще» - что это значит? Ну, это зависит от аудитории. Некоторые зрители съедят стиль Tufte. Но некоторые зрители время от времени ценят маленькую чартовую диаграмму. Некоторым людям скучно на участках рассеяния. Некоторые люди любят красочные фоны. Разве так неправильно привлекать их немного, даже если вы ставите под угрозу «эстетическую» чистоту? Это решать вам.
Реакция вашей аудитории будет важной частью обратной связи, но не единственной. Если вы найдете способ измерить их понимание до и после презентации, вы начнете понимать, какое влияние вы оказали.
«Правильный» ответ будет зависеть от таких вопросов:
Какие медиа вы будете использовать?
Вы создаете статические или интерактивные сюжеты?
Вы пытаетесь рассказать заранее определенную историю (экспозицию) или поощряете эксперименты (исследование)?
В какой степени вы хотите, чтобы аудитория сделала свои собственные выводы?
В какой степени вы хотите, чтобы аудитория следовала и была убеждена вашей историей?
В какой степени вы хотите, чтобы аудитория оспаривала ваши выводы?
Таким образом, разработайте ваши материалы сознательно с учетом вашего сообщения, аудитории и ограничений.
Кажется, я помню, что Туфте упомянул одну вещь, которой нет в других ответах, - это сопоставление - то есть расположение, направление, размер и т. Д. На вашем графике представляют реальность . То, что находится на графике, должно быть в реальном мире. То, что является большим, должно быть большим (помните, что области должны представлять области, а объемы - объемы. Никогда не пытайтесь представлять скалярное значение по области, это очень неоднозначно!). Это также относится к цветам, формам и т. Д., Если они актуальны.
Интересным примером является график «серия юбок» здесь: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Хотя технически это правильно, и «более высокая» длина юбки занимает более высокое положение на графике, это на самом деле довольно запутанно, потому что длина юбки начинается сверху и уменьшается (в отличие от людей или деревьев, где мы измеряем высоту от земля). Таким образом, увеличенная длина юбки фактически представляет меньшее значение:
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Есть, как всегда, трудности. Например, мы обычно рассматриваем время для продвижения вперед, и, по крайней мере, на западе мы читаем слева направо, поэтому наши графики временных рядов также обычно текут слева направо по мере увеличения времени. Так что же произойдет, если вы захотите представить что-то, что лучше всего представлено в боковом направлении (например, измерения чего-то с востока на запад), с течением времени? В этом случае вы должны пойти на компромисс и либо изобразить время движения вверх или вниз (что, опять же, зависит от культурного восприятия), либо выбрать отображение вашей боковой переменной вверх / вниз на графике.
Это зависит от того, каким образом будут обсуждаться участки.
Например, если я рассылаю графики для группового собрания, которое будет проводиться с вызывающими абонентами из разных мест, я предпочитаю собирать их вместе в Powerpoint, а не в Excel, чтобы легче было переворачивать.
Для технических вызовов один на один я выделю что-то в excel, чтобы клиент мог отодвинуть график и просмотреть необработанные данные. Или я могу ввести значения p в ячейки вдоль коэффициентов боковой регрессии, например
Имейте в виду: сюжеты дешевы, особенно для слайд-шоу или для отправки по электронной почте группе. Я предпочел бы сделать 10 четких графиков, которые мы можем пролистать, чем 5 графиков, на которых я пытаюсь разместить разные когорты (например, «мужчины и женщины») на одном графике.
Я бы добавил, что выбор графика должен отражать тип статистического теста, используемого для анализа данных. Другими словами, любые характеристики данных, использованные для анализа, должны быть показаны визуально - поэтому вы бы отобразили средние значения и стандартные ошибки, если бы использовали t-критерий, но коробочные диаграммы, если бы использовали критерий Манна-Уитни.