Исследовать отношения между переменными довольно расплывчато, но я думаю, что есть две более общие цели изучения диаграмм рассеяния;
- Определите скрытые группы (переменных или случаев).
- Выявить выбросы (в одномерном, двумерном или многомерном пространстве).
Оба сводят данные в более управляемые сводки, но имеют разные цели. Выявление скрытых групп обычно уменьшает размеры данных (например, через PCA), а затем исследует, объединяются ли переменные или случаи в этом уменьшенном пространстве. См., Например, Friendly (2002) или Cook et al. (1995).
Выявление выбросов может означать либо подгонку модели и построение графика отклонений от модели (например, построение остатков от регрессионной модели), либо сокращение данных до основных компонентов и выделение только тех точек, которые отклоняются от модели или основной части данных. Например, на коробчатых диаграммах в одном или двух измерениях обычно показаны только отдельные точки, находящиеся вне петель (Wickham & Stryjewski, 2013). Хорошее свойство построения графиков остатков заключается в том, что они должны сглаживать графики (Tukey, 1977), поэтому любые доказательства связей в оставшемся облаке точек являются «интересными». Этот вопрос по CV содержит несколько отличных предложений по выявлению многомерных выбросов.
Распространенный способ исследования таких больших SPLOMS - это построение не всех отдельных точек, а некоторого типа упрощенной сводки, а затем, возможно, точек, которые в значительной степени отклоняются от этой сводки, например, эллипсы доверия, резюмирующие сводки (Wilkinson & Wills, 2008), двумерные коробочные участки, контурные участки. Ниже приведен пример построения эллипсов, которые определяют ковариацию и наложение более гладкого лесса для описания линейной ассоциации.
(источник: statmethods.net )
В любом случае, для реального успешного интерактивного графика с таким количеством переменных, вероятно, потребуется интеллектуальная сортировка (Wilkinson, 2005) и простой способ фильтрации переменных (в дополнение к возможностям чистки / связывания). Также любой реалистичный набор данных должен иметь возможность преобразовывать оси (например, наносить данные на логарифмическую шкалу, преобразовывать данные, укореняться и т. Д.). Удачи, и не придерживайтесь только одного заговора!
Цитирование