Какова связь между и на следующем графике? На мой взгляд, есть отрицательные линейные отношения, но поскольку у нас много выбросов, отношения очень слабые. Я прав? Я хочу узнать, как мы можем объяснить графики рассеяния.X
Какова связь между и на следующем графике? На мой взгляд, есть отрицательные линейные отношения, но поскольку у нас много выбросов, отношения очень слабые. Я прав? Я хочу узнать, как мы можем объяснить графики рассеяния.X
Ответы:
Этот вопрос касается нескольких концепций: как оценить данные, представленные только в форме диаграммы рассеяния, как суммировать диаграмму рассеяния, и является ли (и в какой степени) связь линейной. Давайте приведем их в порядок.
Используйте принципы разведочного анализа данных (ЭДА). Они (по крайней мере первоначально, когда они были разработаны для использования карандашом и бумагой) подчеркивают простые, легко вычисляемые, надежные сводки данных. Один из самых простых видов сводок основан на позициях в наборе чисел, таких как среднее значение, которое описывает «типичное» значение. Середины легко оценить по графике.
Диаграммы рассеяния показывают пары чисел. Первая из каждой пары (как показано на горизонтальной оси) дает набор отдельных чисел, которые мы могли бы обобщить отдельно.
В этом конкретном графике рассеяния значения y, по-видимому, лежат в двух почти полностью отдельных группах : значения выше в верхней части и значения, равные или меньшие 60 в нижней части. (Это впечатление подтверждается составлением гистограммы значений y, которая является резко бимодальной, но на этом этапе это будет большая работа.) Я приглашаю скептиков покоситься на график рассеяния. Когда я делаю - используя гауссово-размытое изображение с большим радиусом (то есть стандартный результат быстрой обработки изображений) точек на диаграмме рассеяния, я вижу это:
Две группы - верхняя и нижняя - довольно очевидны. (Верхняя группа намного легче, чем нижняя, потому что она содержит намного меньше точек.)
Соответственно, давайте суммируем группы значений y отдельно. Я сделаю это, нарисовав горизонтальные линии на медиане двух групп. Чтобы подчеркнуть впечатление от данных и показать, что мы не выполняем никаких вычислений, я (а) удалил все декорации, такие как оси и линии сетки, и (б) размыл точки. Небольшая информация о закономерностях в данных теряется при «щурении» на графику:
Точно так же я попытался отметить медианы значений x вертикальными отрезками. В верхней группе (красные линии) вы можете проверить - подсчитав капли - что эти линии фактически разделяют группу на две равные половины, как по горизонтали, так и по вертикали. В нижней группе (синие линии) я только визуально оценил позиции без какого-либо подсчета.
Точки пересечения являются центрами двух групп. Одним отличным обобщением взаимосвязи между значениями x и y было бы сообщение об этих центральных позициях. Затем хотелось бы дополнить это резюме описанием того, насколько данные распределены в каждой группе - слева и справа, сверху и снизу - вокруг их центров. Для краткости я здесь не буду этого делать, но учтите, что (приблизительно) длины отрезков, которые я нарисовал, отражают общие спреды каждой группы.
Наконец, я нарисовал (пунктирную) линию, соединяющую два центра. Это разумная линия регрессии. Это хорошее описание данных? Конечно, нет: посмотрите, как разбросаны данные вокруг этой линии. Это даже доказательство линейности? Это вряд ли актуально, потому что линейное описание так плохо. Тем не менее, поскольку этот вопрос стоит перед нами, давайте его рассмотрим.
Отношение является линейным в статистическом смысле, когда либо значения y изменяются сбалансированным случайным образом вокруг линии, либо считается, что значения x изменяются сбалансированным случайным образом вокруг линии (или обоих).
Первое, кажется, не имеет место здесь: поскольку значения y, кажется, делятся на две группы, их изменение никогда не будет выглядеть сбалансированным в смысле того, чтобы быть приблизительно симметрично распределенным выше или ниже линии. (Это сразу исключает возможность выгрузки данных в пакет линейной регрессии и выполнения подгонки y наименьших квадратов к x: ответы не будут иметь отношения.)
Как насчет вариации в х? Это более правдоподобно: на каждой высоте графика горизонтальный разброс точек вокруг пунктирной линии довольно сбалансирован. Распространение в этом разбросе , кажется, быть немного больше при более низких высотах (низкие значений у), но , возможно , это потому , что есть много больше очков там. (Чем больше у вас случайных данных, тем шире будут их экстремальные значения.)
Более того, при сканировании сверху вниз нет мест, где горизонтальный разброс вокруг линии регрессии был бы сильно несбалансированным: это было бы свидетельством нелинейности. (Ну, может быть, около y = 50 или около того, может быть слишком много больших значений x. Этот тонкий эффект можно было бы использовать в качестве дополнительного доказательства разбивки данных на две группы вокруг значения y = 60.)
Мы видели это
Имеет смысл рассматривать x как линейную функцию от y плюс некоторую «красивую» случайную вариацию.
Это не имеет смысл для представления у в виде линейной функции от й плюс случайных изменений.
Линия регрессии может быть оценена путем разделения данных на группу высоких значений y и группу низких значений y, нахождение центров обеих групп с использованием медиан и соединение этих центров.
Результирующая линия имеет наклон вниз, что указывает на отрицательную линейную зависимость.
Здесь нет сильных отклонений от линейности.
Тем не менее, поскольку разброс значений x вокруг линии все еще велик (по сравнению с общим разбросом значений x для начала), нам пришлось бы охарактеризовать эту отрицательную линейную зависимость как «очень слабую».
Возможно, было бы более полезно описать данные как образующие два овальных облака (одно для y выше 60, а другое для более низких значений y). Внутри каждого облака существует небольшая обнаружимая связь между x и y. Центры облаков находятся вблизи (0,29, 90) и (0,38, 30). Облака имеют сравнимый разброс, но в верхнем облаке данных гораздо меньше, чем в нижнем (может быть, на 20% больше).
Два из этих выводов подтверждают сделанные в самом вопросе слабые негативные отношения. Другие дополняют и поддерживают эти выводы.
Одним из выводов, сделанных в вопросе, который, кажется, не соответствует действительности, является утверждение о том, что существуют "выбросы". Более тщательное изучение (как показано ниже) не приведет к обнаружению каких-либо отдельных точек или даже небольших групп точек, которые действительно могут считаться отдаленными. После достаточно продолжительного анализа можно обратить внимание на две точки рядом с серединой справа или одну точку в левом нижнем углу, но даже они не сильно изменят оценку данных, независимо от того, считаются они или нет. отдаленная.
Гораздо больше можно сказать. Следующими шагами будет оценка распространения этих облаков. Отношения между x и y в каждом из двух облаков могут быть оценены отдельно, используя те же методы, показанные здесь. Небольшая асимметрия нижнего облака (больше данных появляется при наименьших значениях y) может быть оценена и даже скорректирована путем повторного выражения значений y (квадратный корень может хорошо работать). На этом этапе имеет смысл поискать внешние данные, потому что в этот момент описание будет включать информацию о типичных значениях данных, а также их разбросах; выбросы (по определению) будут слишком далеко от середины, чтобы их можно было объяснить с точки зрения наблюдаемого количества распространения.
Ни одна из этих работ, которая является довольно количественной, не требует гораздо большего, чем поиск середин групп данных и выполнение некоторых простых вычислений с ними, и, следовательно, может быть выполнена быстро и точно, даже если данные доступны только в графической форме. Каждый результат, о котором здесь сообщается, включая количественные значения, можно легко найти в течение нескольких секунд с помощью системы отображения (такой как печатная копия и карандаш :-)), которая позволяет делать светлые отметки на верхней части графика.
Давай повеселимся!
Прежде всего, я Царапины на данные с вашего графика.
Затем я использовал плавную линию сглаживания, чтобы создать черную линию регрессии ниже с пунктирными полосами 95% CI в сером цвете. На приведенном ниже графике показан промежуток в сглаживании половины данных, хотя более узкие пролеты выявили более или менее точно такие же отношения. Небольшое изменение наклона вокруг предполагает связь, которая может быть аппроксимирована с использованием линейной модели и добавления линейной шарнирной функции наклона X в нелинейной регрессии наименьших квадратов (красная линия):
Коэффициенты оценки были:
Я хотел бы отметить, что, хотя грозный сплетник утверждает, что нет сильных линейных отношений, отклонение от линии подразумеваемое шарнирным членом, имеет тот же порядок, что и наклон X (то есть 37,7), поэтому я Я бы с уважением не согласился бы с тем, что мы не видим сильных нелинейных отношений (т.е. да, сильных отношений нет, но нелинейный термин примерно такой же сильный, как линейный).
Интерпретация
(я исходил из предположения, что вас интересует только как зависимая переменная.) Значения Y очень слабо прогнозируются X (с помощью Adjusted- R
(Красная линия - это просто линейная регрессия ln (Y) на X.)
Вот мои 2 ¢ 1,5 ¢. Для меня наиболее заметной особенностью является то, что данные внезапно останавливаются и «сгруппируются» в нижней части диапазона Y. Я вижу два (потенциальных) «кластера» и общую отрицательную связь, но наиболее существенными признаками являются (потенциальный) эффект пола и тот факт, что верхний кластер с низкой плотностью распространяется только на часть диапазона X.
Поскольку «кластеры» являются неопределенно-двумерными нормальными, может оказаться интересной параметрическая модель нормальной смеси. Используя данные @Alexis, я обнаружил, что три кластера оптимизируют BIC. «Эффект пола» высокой плотности выбран в качестве третьего кластера. Код следует:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
Теперь, что мы будем из этого выводить? Я не думаю, что Mclust
это просто человеческое распознавание образов. (В то время как мое чтение диаграммы рассеяния вполне может быть.) С другой стороны, нет никаких сомнений в том, что это постфактум . Я увидел то, что мне показалось интересным, и решил проверить его. Алгоритм действительно что-то находит, но потом я проверил только то, что, по моему мнению, могло быть там, поэтому мой большой палец определенно находится на шкале. Иногда можно разработать стратегию для смягчения этого (см. Отличный ответ @ whuber здесь ), но я не знаю, как выполнить такой процесс в подобных случаях. В результате я принимаю эти результаты с большим количеством соли (я делал такие вещи достаточно часто, чтобы кто-то пропустил целый шейкер). Это дает мне некоторый материал для размышления и обсуждения с моим клиентом при следующей встрече. Что это за данные? Имеет ли какой-то смысл, что может быть эффект пола? Имеет ли смысл, что могут быть разные группы? Насколько значимым / удивительным / интересным / важным было бы, если бы они были реальными? Существуют ли независимые данные / можем ли мы получить их для проведения честной проверки этих возможностей? И т.п.
Позвольте мне описать то, что я вижу, как только я на это посмотрю:
почти плоская. (См. Красные и синие линии ниже, нарисованные примерно там, где я предполагаю какое-то грубое ощущение местоположения)
, мы можем сказать больше:
падения , и ниже примерно 0,2 нижняя группа гораздо менее плотная, чем над ней, что делает общее среднее выше.
Это то, что я увидел на основе чисто «на глаз» осмотра. Немного поиграв в чем-то вроде базовой программы для работы с изображениями (например, той, с которой я нарисовал линии), мы могли бы начать выяснять некоторые более точные цифры. Если мы оцифруем данные (что довольно просто с использованием приличных инструментов, хотя иногда и немного утомительно, чтобы получить правильные данные), то мы можем провести более сложный анализ такого рода впечатлений.
Этот вид исследовательского анализа может привести к некоторым важным вопросам (иногда удивляющим человека, у которого есть данные, но который только показал график), но мы должны позаботиться о том, насколько наши модели выбраны такими проверками - если Мы применяем модели, выбранные на основе внешнего вида графика, и затем оцениваем эти модели по одним и тем же данным. Мы склонны сталкиваться с теми же проблемами, которые возникают, когда мы используем более формальный выбор моделей и оценку на тех же данных. [Это вовсе не значит отрицать важность исследовательского анализа - мы просто должны быть осторожны с последствиями этого, независимо от того, как мы это делаем. ]
Ответ на комментарии Русса:
[позднее редактирование: чтобы уточнить - я в целом согласен с критикой Русса, принятой в качестве общей меры предосторожности, и, безусловно, есть вероятность, что я видел больше, чем есть на самом деле. Я планирую вернуться и отредактировать их в более подробный комментарий о ложных закономерностях, которые мы обычно видим на глаз, и о способах, которыми мы могли бы начать избегать худшего из этого. Я полагаю, что я также смогу добавить некоторое обоснование того, почему я думаю, что это, вероятно, не просто ложно в этом конкретном случае (например, с помощью регрессии или сглаживания ядра 0-го порядка, хотя, конечно, при отсутствии дополнительных данных для проверки, есть только так далеко, что может зайти, например, если наша выборка не является репрезентативной, даже повторная выборка только уводит нас.]
Я полностью согласен с тем, что у нас есть тенденция видеть ложные паттерны; я часто делаю это здесь и в других местах.
Одна вещь, которую я предлагаю, например, при рассмотрении остаточных графиков или графиков QQ, - это генерировать много графиков, на которых известна ситуация (как вещи должны быть, а где нет предположений), чтобы получить четкое представление о том, какой должен быть шаблон игнорируются.
Вот пример, где график QQ размещен среди 24 других (которые удовлетворяют предположениям), чтобы мы увидели, насколько необычен график. Такое упражнение важно, потому что оно помогает нам избежать одурачивания, интерпретируя каждую небольшую шевеление, большинство из которых будет простым шумом.
Я часто отмечаю, что если вы можете изменить впечатление, покрыв несколько моментов, мы можем полагаться на впечатление, созданное не более чем шумом.
[Однако, когда это очевидно из многих точек зрения, а не из нескольких, труднее утверждать, что его там нет.]
.
Когда у нас нет больше данных для проверки, мы можем, по крайней мере, посмотреть, будет ли впечатление переживать повторную выборку (загрузите двумерный дистрибутив и посмотреть, присутствует ли он почти всегда) или другие манипуляции, когда впечатление не должно быть очевидным. если это простой шум.
1) Вот один из способов проверить, не является ли кажущаяся бимодальность чем-то большим, чем просто асимметрия плюс шум - проявляется ли она в оценке плотности ядра? Это все еще видно, если мы строим оценки плотности ядра при различных преобразованиях? Здесь я преобразую его в сторону большей симметрии при 85% пропускной способности по умолчанию (поскольку мы пытаемся определить относительно небольшой режим, а пропускная способность по умолчанию не оптимизирована для этой задачи):
Участки , а также , Вертикальные линии находятся на, а также , Бимодальность уменьшается, но все еще довольно заметна. Так как в оригинальном KDE это очень ясно, кажется, что он там есть - и второй и третий графики предполагают, что он по крайней мере несколько устойчив к трансформации.
2) Вот еще один простой способ узнать, не является ли это чем-то большим, чем просто «шум»:
Шаг 1: выполнить кластеризацию на Y
Шаг 2: разделить на две группы и сгруппируйте две группы по отдельности и посмотрите, очень ли они похожи. Если между двумя половинками ничего не происходит, не стоит ожидать, что они разделятся между собой.
Точки с точками были сгруппированы не так, как кластер «все в одном наборе» на предыдущем графике. Я сделаю еще немного позже, но, похоже, что действительно может быть горизонтальный «раскол» около этой позиции.
Я собираюсь попробовать регрессию или оценку Надарая-Ватсона (обе являются локальными оценками функции регрессии, ). Я еще не сгенерировал, но посмотрим, как они пойдут. Я бы, наверное, исключил самые концы, где мало данных.
3) Правка: вот регрессограмма для бинов шириной 0,1 (исключая самые концы, как я предлагал ранее):
Это полностью соответствует первоначальному впечатлению от сюжета; это не доказывает, что мои рассуждения были правильными, но мои выводы пришли к тому же результату, что и регрессограмма.
Если то, что я видел в сюжете - и вытекающие из этого рассуждения - было ложным, мне, вероятно, не следовало бы различать так.
(Следующее, что нужно попробовать, - это оценка Надаяра-Ватсона. Тогда я смогу увидеть, как будет проходить повторную выборку, если у меня будет время.)
4) Позже отредактируйте:
Надарья-Ватсон, ядро Гаусса, полоса пропускания 0,15:
Опять же, это удивительно согласуется с моим первоначальным впечатлением. Вот оценки NW, основанные на десяти повторных выборках начальной загрузки:
Здесь есть общая схема, хотя несколько повторных выборок не так четко следуют описанию, основанному на всех данных. Мы видим, что случай уровня слева менее определен, чем справа - уровень шума (частично из нескольких наблюдений, частично из широкого разброса) таков, что менее легко утверждать, что среднее действительно выше при осталось, чем в центре.
У меня сложилось общее впечатление, что я, вероятно, не просто обманывал себя, потому что различные аспекты в меру хорошо противостоят различным вызовам (сглаживание, трансформация, разбиение на подгруппы, повторная выборка), которые могут скрыть их, если они будут просто шумом. С другой стороны, признаки того, что эффекты, хотя и в целом соответствуют моему первоначальному впечатлению, относительно слабые, и может быть слишком много, чтобы требовать каких-либо реальных изменений в ожидании, движущихся от левой стороны к центру.
Хорошо, ребята, я последовал примеру Алексис и собрал данные. Вот сюжет против ,
И корреляции:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
Корреляционный тест указывает на вероятную отрицательную зависимость. Я не убежден ни в какой бимодальности (но также не уверен, что она отсутствует).
[Я удалил остаточный график, который у меня был в более ранней версии, потому что я упустил момент, который @whuber пытался предсказать .]
Расс Лент спросил, как будет выглядеть график, если ось Y будет логарифмической. Алексис просмотрела данные, поэтому на них легко построить график с осью журнала:
В логарифмическом масштабе нет намека на бимодальность или тренд. Разумеется, имеет ли смысл логарифмическая шкала, зависит, конечно, от деталей того, что представляют данные. Точно так же, имеет ли смысл думать, что данные представляют выборку из двух групп населения, как предполагает Уубер, зависит от деталей.
Приложение: На основе комментариев ниже, вот пересмотренная версия:
Ну, вы правы, отношения слабые, но не ноль. Я бы предположил, положительный. Однако не угадайте, просто запустите простую линейную регрессию (регрессия OLS) и узнайте! Там вы получите уклон ххх, который говорит вам, каковы отношения. И да, у вас есть выбросы, которые могут повлиять на результаты. С этим можно разобраться. Вы можете использовать расстояние Кука или создать график рычага, чтобы оценить влияние выбросов на отношения.
Удачи
Вы уже предоставили некоторую интуицию в своем вопросе, посмотрев на ориентацию точек данных X / Y и их разброс. Короче ты прав.
В формальных терминах ориентация может называться знаком корреляции, а дисперсия - дисперсией . Эти две ссылки дадут вам больше информации о том, как интерпретировать линейные отношения между двумя переменными.
Это домашняя работа. Итак, ответ на ваш вопрос прост. Запустите линейную регрессию Y на X, вы получите что-то вроде этого:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
Таким образом, t-статистика значима для переменной X с вероятностью 99%. Следовательно, вы можете объявить переменные как имеющие какую-то связь.
Это линейно? Добавьте переменную X2 = (X-mean (X)) ^ 2 и снова регрессируйте.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
Коэффициент в X все еще значим, но X2 нет. Х2 представляет нелинейность. Итак, вы заявляете, что отношения кажутся линейными.
Выше было для домашней работы.
В реальной жизни все сложнее. Представьте, что это были данные о классе учеников. Y - жим лежа в фунтах, X - время в минутах задержки дыхания перед жимом лежа. Я бы попросил пол студентов. Просто для забавы, давайте добавим еще одну переменную, Z, и скажем, что Z = 1 (девочки) для всех Y <60, и Z = 0 (мальчики), когда Y> = 60. Запустите регрессию с тремя переменными:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
Что произошло?! «Отношения» между X и Y исчезли! О, кажется, что отношения были ложными из-за смешанной переменной пола.
Какова мораль этой истории? Вы должны знать, что это за данные, чтобы «объяснить» «отношения», или даже установить их в первую очередь. В этом случае, в тот момент, когда мне сообщают, что данные о физической активности учеников, я сразу же спрашиваю их пол, и даже не буду анализировать данные без получения гендерной переменной.
С другой стороны, если вас попросят «описать» сюжет разброса, то все будет в порядке. Корреляции, линейные подгонки и т. Д. Для домашней работы достаточно двух вышеупомянутых шагов: посмотрите на коэффициент X (отношение), затем X ^ 2 (линейность). Удостоверьтесь, что вы удалили значение переменной X (вычтите среднее).