Какова связь между и в этом сюжете?


38

Какова связь между и на следующем графике? На мой взгляд, есть отрицательные линейные отношения, но поскольку у нас много выбросов, отношения очень слабые. Я прав? Я хочу узнать, как мы можем объяснить графики рассеяния.XYX

введите описание изображения здесь


3
Что такое ? Что такое Y ? Какой процесс вы произвели выбросы? Что заставляет вас думать, что они не являются реальными измерениями? Какая теория? XY
abaumann

4
Спасибо за ваш комментарий. Я просто вижу этот сюжет в книге. Y является зависимой переменной, а X является независимой переменной. Там нет теории. он построил график рассеяния, чтобы показать связь Y с данным x. И в книге есть вопрос, который спрашивает, есть ли связь или нет, линейная или нелинейная? Сильный или слабый?
PSS

7
Это упражнение в тасеографии . Это очень популярно среди дневных трейдеров, и они называют это техническим анализом . По сути, не зная ничего о природе данных, это бесполезное упражнение
Аксакал

1
@ chl ты скажешь за то, что пожертвовал на награду whuber =)
Cam.Davidson.Pilon

3
@Aksakal Статистический язык обычно понимает «отношения» довольно буквально: как описание наборов кортежей чисел. Например, коэффициент корреляции описывает отношение. Там нет никакого смысла о происхождении, природе или причинно-следственных связях среди основных переменных. Я согласен с вами в том, что «объяснять» обычно понимают в таком более глубоком смысле, но, поскольку в этом вопросе так сильно подчеркиваются отношения, я думаю, что было бы справедливо не вдаваться в буквальное значение «объяснить» слишком далеко. Предположение, что описание разбросанных диаграмм - просто чтение чайного листа, заходит слишком далеко, ИМХО.
whuber

Ответы:


51

Этот вопрос касается нескольких концепций: как оценить данные, представленные только в форме диаграммы рассеяния, как суммировать диаграмму рассеяния, и является ли (и в какой степени) связь линейной. Давайте приведем их в порядок.

Оценка графических данных

Используйте принципы разведочного анализа данных (ЭДА). Они (по крайней мере первоначально, когда они были разработаны для использования карандашом и бумагой) подчеркивают простые, легко вычисляемые, надежные сводки данных. Один из самых простых видов сводок основан на позициях в наборе чисел, таких как среднее значение, которое описывает «типичное» значение. Середины легко оценить по графике.

Диаграммы рассеяния показывают пары чисел. Первая из каждой пары (как показано на горизонтальной оси) дает набор отдельных чисел, которые мы могли бы обобщить отдельно.

В этом конкретном графике рассеяния значения y, по-видимому, лежат в двух почти полностью отдельных группах : значения выше в верхней части и значения, равные или меньшие 60 в нижней части. (Это впечатление подтверждается составлением гистограммы значений y, которая является резко бимодальной, но на этом этапе это будет большая работа.) Я приглашаю скептиков покоситься на график рассеяния. Когда я делаю - используя гауссово-размытое изображение с большим радиусом (то есть стандартный результат быстрой обработки изображений) точек на диаграмме рассеяния, я вижу это:6060

Рисунок 0

Две группы - верхняя и нижняя - довольно очевидны. (Верхняя группа намного легче, чем нижняя, потому что она содержит намного меньше точек.)

Соответственно, давайте суммируем группы значений y отдельно. Я сделаю это, нарисовав горизонтальные линии на медиане двух групп. Чтобы подчеркнуть впечатление от данных и показать, что мы не выполняем никаких вычислений, я (а) удалил все декорации, такие как оси и линии сетки, и (б) размыл точки. Небольшая информация о закономерностях в данных теряется при «щурении» на графику:

фигура

Точно так же я попытался отметить медианы значений x вертикальными отрезками. В верхней группе (красные линии) вы можете проверить - подсчитав капли - что эти линии фактически разделяют группу на две равные половины, как по горизонтали, так и по вертикали. В нижней группе (синие линии) я только визуально оценил позиции без какого-либо подсчета.

Оценка отношений: регрессия

Точки пересечения являются центрами двух групп. Одним отличным обобщением взаимосвязи между значениями x и y было бы сообщение об этих центральных позициях. Затем хотелось бы дополнить это резюме описанием того, насколько данные распределены в каждой группе - слева и справа, сверху и снизу - вокруг их центров. Для краткости я здесь не буду этого делать, но учтите, что (приблизительно) длины отрезков, которые я нарисовал, отражают общие спреды каждой группы.

Наконец, я нарисовал (пунктирную) линию, соединяющую два центра. Это разумная линия регрессии. Это хорошее описание данных? Конечно, нет: посмотрите, как разбросаны данные вокруг этой линии. Это даже доказательство линейности? Это вряд ли актуально, потому что линейное описание так плохо. Тем не менее, поскольку этот вопрос стоит перед нами, давайте его рассмотрим.

Оценка линейности

Отношение является линейным в статистическом смысле, когда либо значения y изменяются сбалансированным случайным образом вокруг линии, либо считается, что значения x изменяются сбалансированным случайным образом вокруг линии (или обоих).

Первое, кажется, не имеет место здесь: поскольку значения y, кажется, делятся на две группы, их изменение никогда не будет выглядеть сбалансированным в смысле того, чтобы быть приблизительно симметрично распределенным выше или ниже линии. (Это сразу исключает возможность выгрузки данных в пакет линейной регрессии и выполнения подгонки y наименьших квадратов к x: ответы не будут иметь отношения.)

Как насчет вариации в х? Это более правдоподобно: на каждой высоте графика горизонтальный разброс точек вокруг пунктирной линии довольно сбалансирован. Распространение в этом разбросе , кажется, быть немного больше при более низких высотах (низкие значений у), но , возможно , это потому , что есть много больше очков там. (Чем больше у вас случайных данных, тем шире будут их экстремальные значения.)

Более того, при сканировании сверху вниз нет мест, где горизонтальный разброс вокруг линии регрессии был бы сильно несбалансированным: это было бы свидетельством нелинейности. (Ну, может быть, около y = 50 или около того, может быть слишком много больших значений x. Этот тонкий эффект можно было бы использовать в качестве дополнительного доказательства разбивки данных на две группы вокруг значения y = 60.)

Выводы

Мы видели это

  • Имеет смысл рассматривать x как линейную функцию от y плюс некоторую «красивую» случайную вариацию.

  • Это не имеет смысл для представления у в виде линейной функции от й плюс случайных изменений.

  • Линия регрессии может быть оценена путем разделения данных на группу высоких значений y и группу низких значений y, нахождение центров обеих групп с использованием медиан и соединение этих центров.

  • Результирующая линия имеет наклон вниз, что указывает на отрицательную линейную зависимость.

  • Здесь нет сильных отклонений от линейности.

  • Тем не менее, поскольку разброс значений x вокруг линии все еще велик (по сравнению с общим разбросом значений x для начала), нам пришлось бы охарактеризовать эту отрицательную линейную зависимость как «очень слабую».

  • Возможно, было бы более полезно описать данные как образующие два овальных облака (одно для y выше 60, а другое для более низких значений y). Внутри каждого облака существует небольшая обнаружимая связь между x и y. Центры облаков находятся вблизи (0,29, 90) и (0,38, 30). Облака имеют сравнимый разброс, но в верхнем облаке данных гораздо меньше, чем в нижнем (может быть, на 20% больше).

Два из этих выводов подтверждают сделанные в самом вопросе слабые негативные отношения. Другие дополняют и поддерживают эти выводы.

Одним из выводов, сделанных в вопросе, который, кажется, не соответствует действительности, является утверждение о том, что существуют "выбросы". Более тщательное изучение (как показано ниже) не приведет к обнаружению каких-либо отдельных точек или даже небольших групп точек, которые действительно могут считаться отдаленными. После достаточно продолжительного анализа можно обратить внимание на две точки рядом с серединой справа или одну точку в левом нижнем углу, но даже они не сильно изменят оценку данных, независимо от того, считаются они или нет. отдаленная.


Дальнейшие направления

Гораздо больше можно сказать. Следующими шагами будет оценка распространения этих облаков. Отношения между x и y в каждом из двух облаков могут быть оценены отдельно, используя те же методы, показанные здесь. Небольшая асимметрия нижнего облака (больше данных появляется при наименьших значениях y) может быть оценена и даже скорректирована путем повторного выражения значений y (квадратный корень может хорошо работать). На этом этапе имеет смысл поискать внешние данные, потому что в этот момент описание будет включать информацию о типичных значениях данных, а также их разбросах; выбросы (по определению) будут слишком далеко от середины, чтобы их можно было объяснить с точки зрения наблюдаемого количества распространения.

Ни одна из этих работ, которая является довольно количественной, не требует гораздо большего, чем поиск середин групп данных и выполнение некоторых простых вычислений с ними, и, следовательно, может быть выполнена быстро и точно, даже если данные доступны только в графической форме. Каждый результат, о котором здесь сообщается, включая количественные значения, можно легко найти в течение нескольких секунд с помощью системы отображения (такой как печатная копия и карандаш :-)), которая позволяет делать светлые отметки на верхней части графика.


4
Вау. Я бы никогда не увидел эти две группы и полученную строку. И я подвергаю сомнению это.
rvl

4
@Russ Я рад слышать, что кто-то ставит под сомнение это исследование, потому что ни один EDA не является уникальным или диспозитивным. Я включил другое изображение, чтобы помочь вам увидеть то, что я вижу. Я хотел бы пригласить вас опубликовать ответ, который будет таким же или более экономным и полезным для описания.
whuber

12
Как люди, мы чрезвычайно склонны находить закономерности, даже те, которых там нет. Я думаю, что вполне возможно получить график рассеяния, подобный тому, который мы имеем здесь, только с двумя независимыми RV, один из которых перекошен. У меня нет никаких доказательств этого, и у меня нет альтернативного анализа, кроме того, который говорит, что между или почти нет отношений. Да, возможно, что бимодальность присутствует. Если бы процесс можно было наблюдать дальше, мы могли бы видеть, что происходит. Я просто думаю, что мы должны быть осторожными и осознавать нашу склонность реагировать на правдоподобные ложные схемы.
rvl

4
@Russ Вы правы. Опыт необходим, чтобы не читать слишком много шаблонов. Мой опыт говорит, что при 150-200 точках случайным образом трудно получить сильную бимодальность, которую я измерил в координатах y. Такой опыт можно легко и быстро дополнить в настоящее время моделированием: когда вы думаете, что видите шаблон, то (1) количественно охарактеризуете его и (2) ищите его в случайных выборках, которые генерируются в соответствии с более простой альтернативной гипотезой. Если шаблон обнаруживается очень сильно, то вы можете обвинить вашу зрительную кору, но в противном случае вы могли бы что-то найти.
whuber

1
@Russ Спасибо. Это был не тот остаточный сюжет, который я описал - роли x и y поменялись местами. Тем не менее, это информативно, тем не менее. Гетероскедастичность - самая поразительная вещь: кажется, она действительно поддерживает гипотезу о двух кластерах (которая может привести к исчезновению гетероскедастичности). Имейте в виду, я агностик по поводу этой гипотезы. Все, что я написал здесь, в оригинальном духе тщательного, надежного описания данных. Любая отдельная кривая в качестве описания этих данных будет грубой и, возможно, неудовлетворительной.
whuber

31

Давай повеселимся!

Прежде всего, я Царапины на данные с вашего графика.

Затем я использовал плавную линию сглаживания, чтобы создать черную линию регрессии ниже с пунктирными полосами 95% CI в сером цвете. На приведенном ниже графике показан промежуток в сглаживании половины данных, хотя более узкие пролеты выявили более или менее точно такие же отношения. Небольшое изменение наклона вокруг предполагает связь, которая может быть аппроксимирована с использованием линейной модели и добавления линейной шарнирной функции наклона X в нелинейной регрессии наименьших квадратов (красная линия):X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Коэффициенты оценки были:

Y=50.937.7X26.74436max(X0.46,0)

Я хотел бы отметить, что, хотя грозный сплетник утверждает, что нет сильных линейных отношений, отклонение от линии подразумеваемое шарнирным членом, имеет тот же порядок, что и наклон X (то есть 37,7), поэтому я Я бы с уважением не согласился бы с тем, что мы не видим сильных нелинейных отношений (т.е. да, сильных отношений нет, но нелинейный термин примерно такой же сильный, как линейный).Y=50.937.7XX

Время воспроизведения с данными

Интерпретация
(я исходил из предположения, что вас интересует только как зависимая переменная.) Значения Y очень слабо прогнозируются X (с помощью Adjusted- RYYXR2YN=170X>0.5Y

ln(Y)

(Красная линия - это просто линейная регрессия ln (Y) на X.)

Обновлено с графиком в соответствии с предложением Расс Лента.

logYXYlogYXYXlog(Y)XYX


1
журналYИксY
rvl

1
@Russ: Классическое, что бимодальные распределения могут выглядеть косо и предлагать лог-преобразования. Но распределение y здесь действительно бимодальное, и журнал, вероятно, не является полезным способом для его повторного выражения. Когда два компонента разделены, нижний из них все еще имеет положительный перекос, и квадратный корень находится примерно на правильном уровне, чтобы преобразовать его для получения симметричного распределения. Квадратный корень не оказывает существенного влияния на симметрию верхней группы, указывая на то, что корень может быть хорошим выбором. Однако это не исправляет бимодальность - и в этом заключается проблема с любым сглаживанием этого типа.
whuber

1
Алексис, в наших ответах мы оба виновны в использовании «сильного» неопределенным образом. В том смысле, в каком я имел в виду «слабый», намекали некоторые из моих фраз, что должно было указывать на то, что наклон небольшой по сравнению с разбросом значений y. Я не думаю, что ваш анализ дает какой-то другой вывод в этом отношении. Я чувствовал необходимость в осторожности, потому что, принимая гипотетически, что может быть достоинства для модели смеси для y, кажется, что в верхней группе может быть слабая положительная связь между x и y и отсутствие отношений в нижней группе.
whuber

3
Алексис, книга EDA Тьюки полна их. Для получения дополнительной информации (более сложной, с математическим обоснованием) см. Hoaglin, Mosteller & & Tukey, Понимание надежного и разведочного анализа данных .
whuber

2
@rivu руководство. Взял 10 или 15 минут топов. Сначала поместите каждую точку указателем, а затем точно определите ее местоположение с помощью клавиш со стрелками.
Алексис

21

Вот мои 2 ¢ 1,5 ¢. Для меня наиболее заметной особенностью является то, что данные внезапно останавливаются и «сгруппируются» в нижней части диапазона Y. Я вижу два (потенциальных) «кластера» и общую отрицательную связь, но наиболее существенными признаками являются (потенциальный) эффект пола и тот факт, что верхний кластер с низкой плотностью распространяется только на часть диапазона X.

Поскольку «кластеры» являются неопределенно-двумерными нормальными, может оказаться интересной параметрическая модель нормальной смеси. Используя данные @Alexis, я обнаружил, что три кластера оптимизируют BIC. «Эффект пола» высокой плотности выбран в качестве третьего кластера. Код следует:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

введите описание изображения здесь

Теперь, что мы будем из этого выводить? Я не думаю, что Mclustэто просто человеческое распознавание образов. (В то время как мое чтение диаграммы рассеяния вполне может быть.) С другой стороны, нет никаких сомнений в том, что это постфактум . Я увидел то, что мне показалось интересным, и решил проверить его. Алгоритм действительно что-то находит, но потом я проверил только то, что, по моему мнению, могло быть там, поэтому мой большой палец определенно находится на шкале. Иногда можно разработать стратегию для смягчения этого (см. Отличный ответ @ whuber здесь ), но я не знаю, как выполнить такой процесс в подобных случаях. В результате я принимаю эти результаты с большим количеством соли (я делал такие вещи достаточно часто, чтобы кто-то пропустил целый шейкер). Это дает мне некоторый материал для размышления и обсуждения с моим клиентом при следующей встрече. Что это за данные? Имеет ли какой-то смысл, что может быть эффект пола? Имеет ли смысл, что могут быть разные группы? Насколько значимым / удивительным / интересным / важным было бы, если бы они были реальными? Существуют ли независимые данные / можем ли мы получить их для проведения честной проверки этих возможностей? И т.п.


1
+1 За указание на то, что исследовательский анализ естественным образом приводит к интересным вопросам . Я хотел бы подчеркнуть этот момент больше в моем ответе. Хотя я думаю, что это заставит поверить (на данный момент), что на самом деле существуют три отдельные группы, результаты кластера по-прежнему представляют собой достоверный способ увидеть, что между x и y существует отрицательная связь, и суммировать эти отношения. Меня удивляет, в какой степени автоматическая кластеризация может быть в целом полезным исследовательским инструментом - при условии, что у нас не возникает соблазна слишком сильно вдаваться в результаты.
whuber

14

Позвольте мне описать то, что я вижу, как только я на это посмотрю:

YИксYИкс0,5Y|ИксИкс почти плоская. (См. Красные и синие линии ниже, нарисованные примерно там, где я предполагаю какое-то грубое ощущение местоположения)

Икс , мы можем сказать больше:

Икс>0,5Икс падения , и ниже примерно 0,2 нижняя группа гораздо менее плотная, чем над ней, что делает общее среднее выше.

Е(Y|Иксзнак равноИкс)Икс

введите описание изображения здесь

YИксYИксY|Икс

Это то, что я увидел на основе чисто «на глаз» осмотра. Немного поиграв в чем-то вроде базовой программы для работы с изображениями (например, той, с которой я нарисовал линии), мы могли бы начать выяснять некоторые более точные цифры. Если мы оцифруем данные (что довольно просто с использованием приличных инструментов, хотя иногда и немного утомительно, чтобы получить правильные данные), то мы можем провести более сложный анализ такого рода впечатлений.

Этот вид исследовательского анализа может привести к некоторым важным вопросам (иногда удивляющим человека, у которого есть данные, но который только показал график), но мы должны позаботиться о том, насколько наши модели выбраны такими проверками - если Мы применяем модели, выбранные на основе внешнего вида графика, и затем оцениваем эти модели по одним и тем же данным. Мы склонны сталкиваться с теми же проблемами, которые возникают, когда мы используем более формальный выбор моделей и оценку на тех же данных. [Это вовсе не значит отрицать важность исследовательского анализа - мы просто должны быть осторожны с последствиями этого, независимо от того, как мы это делаем. ]


Ответ на комментарии Русса:

[позднее редактирование: чтобы уточнить - я в целом согласен с критикой Русса, принятой в качестве общей меры предосторожности, и, безусловно, есть вероятность, что я видел больше, чем есть на самом деле. Я планирую вернуться и отредактировать их в более подробный комментарий о ложных закономерностях, которые мы обычно видим на глаз, и о способах, которыми мы могли бы начать избегать худшего из этого. Я полагаю, что я также смогу добавить некоторое обоснование того, почему я думаю, что это, вероятно, не просто ложно в этом конкретном случае (например, с помощью регрессии или сглаживания ядра 0-го порядка, хотя, конечно, при отсутствии дополнительных данных для проверки, есть только так далеко, что может зайти, например, если наша выборка не является репрезентативной, даже повторная выборка только уводит нас.]

Я полностью согласен с тем, что у нас есть тенденция видеть ложные паттерны; я часто делаю это здесь и в других местах.

Одна вещь, которую я предлагаю, например, при рассмотрении остаточных графиков или графиков QQ, - это генерировать много графиков, на которых известна ситуация (как вещи должны быть, а где нет предположений), чтобы получить четкое представление о том, какой должен быть шаблон игнорируются.

Вот пример, где график QQ размещен среди 24 других (которые удовлетворяют предположениям), чтобы мы увидели, насколько необычен график. Такое упражнение важно, потому что оно помогает нам избежать одурачивания, интерпретируя каждую небольшую шевеление, большинство из которых будет простым шумом.

Я часто отмечаю, что если вы можете изменить впечатление, покрыв несколько моментов, мы можем полагаться на впечатление, созданное не более чем шумом.

[Однако, когда это очевидно из многих точек зрения, а не из нескольких, труднее утверждать, что его там нет.]

Y .

Когда у нас нет больше данных для проверки, мы можем, по крайней мере, посмотреть, будет ли впечатление переживать повторную выборку (загрузите двумерный дистрибутив и посмотреть, присутствует ли он почти всегда) или другие манипуляции, когда впечатление не должно быть очевидным. если это простой шум.

1) Вот один из способов проверить, не является ли кажущаяся бимодальность чем-то большим, чем просто асимметрия плюс шум - проявляется ли она в оценке плотности ядра? Это все еще видно, если мы строим оценки плотности ядра при различных преобразованиях? Здесь я преобразую его в сторону большей симметрии при 85% пропускной способности по умолчанию (поскольку мы пытаемся определить относительно небольшой режим, а пропускная способность по умолчанию не оптимизирована для этой задачи):

введите описание изображения здесь

Участки Y, Y а также журнал(Y), Вертикальные линии находятся на68, 68 а также журнал(68), Бимодальность уменьшается, но все еще довольно заметна. Так как в оригинальном KDE это очень ясно, кажется, что он там есть - и второй и третий графики предполагают, что он по крайней мере несколько устойчив к трансформации.

2) Вот еще один простой способ узнать, не является ли это чем-то большим, чем просто «шум»:

Шаг 1: выполнить кластеризацию на Y

введите описание изображения здесь

Шаг 2: разделить на две группы Икси сгруппируйте две группы по отдельности и посмотрите, очень ли они похожи. Если между двумя половинками ничего не происходит, не стоит ожидать, что они разделятся между собой.

введите описание изображения здесь

Точки с точками были сгруппированы не так, как кластер «все в одном наборе» на предыдущем графике. Я сделаю еще немного позже, но, похоже, что действительно может быть горизонтальный «раскол» около этой позиции.

Я собираюсь попробовать регрессию или оценку Надарая-Ватсона (обе являются локальными оценками функции регрессии, Е(Y|Икс)). Я еще не сгенерировал, но посмотрим, как они пойдут. Я бы, наверное, исключил самые концы, где мало данных.

3) Правка: вот регрессограмма для бинов шириной 0,1 (исключая самые концы, как я предлагал ранее):

введите описание изображения здесь

Это полностью соответствует первоначальному впечатлению от сюжета; это не доказывает, что мои рассуждения были правильными, но мои выводы пришли к тому же результату, что и регрессограмма.

Если то, что я видел в сюжете - и вытекающие из этого рассуждения - было ложным, мне, вероятно, не следовало бы различать Е(Y|Икс) так.

(Следующее, что нужно попробовать, - это оценка Надаяра-Ватсона. Тогда я смогу увидеть, как будет проходить повторную выборку, если у меня будет время.)

4) Позже отредактируйте:

Надарья-Ватсон, ядро ​​Гаусса, полоса пропускания 0,15:

введите описание изображения здесь

Опять же, это удивительно согласуется с моим первоначальным впечатлением. Вот оценки NW, основанные на десяти повторных выборках начальной загрузки:

введите описание изображения здесь

Здесь есть общая схема, хотя несколько повторных выборок не так четко следуют описанию, основанному на всех данных. Мы видим, что случай уровня слева менее определен, чем справа - уровень шума (частично из нескольких наблюдений, частично из широкого разброса) таков, что менее легко утверждать, что среднее действительно выше при осталось, чем в центре.

У меня сложилось общее впечатление, что я, вероятно, не просто обманывал себя, потому что различные аспекты в меру хорошо противостоят различным вызовам (сглаживание, трансформация, разбиение на подгруппы, повторная выборка), которые могут скрыть их, если они будут просто шумом. С другой стороны, признаки того, что эффекты, хотя и в целом соответствуют моему первоначальному впечатлению, относительно слабые, и может быть слишком много, чтобы требовать каких-либо реальных изменений в ожидании, движущихся от левой стороны к центру.


1
Я поставил под сомнение один ответ, но этот, который, я уверен, говорит, что он находит вещи, которых там нет
rvl

1
Я пытался отменить свое отрицательное голосование, но я думаю, что не могу. Тот факт, что я действительно не согласен с вашим ответом, не обязательно означает, что он не способствует обсуждению. Я не уверен, как использовать отрицательные голоса, и не имею в виду ничего личного.p
rvl

4
@Russ не беспокоиться о понижении, это действительно не имеет значения, за исключением того факта, что он сигнализирует о том, что я должен обратиться. Гораздо важнее понять, почему мы не согласны (в той степени, в которой мы это делаем), чем беспокоиться о фальшивых интернет-точках. У вас есть возражение, которое стоит обсудить, и я бы с удовольствием заплатил в десять раз меньше, чтобы провести даже такое краткое обсуждение. Я призываю вас опровергать меня каждый раз, когда вы не согласны, если вы скажете почему. Это мой шанс чему-то научиться.
Glen_b

1
@RussLenth вы можете отменить отрицательное (или отрицательное) голосование, повторно щелкнув на нисходящем голосовании. Если вы не уверены в том, где находятся ваши голоса при наведении курсора, стрелка вниз (или вверх) сообщит вам об этом.
Алексис

4
+1 Я на самом деле много занимался этим анализом, но не хотел чрезмерно расширять свой ответ этими результатами. Вы проделали большую работу, представив ее в ясной, читаемой и убедительной форме. В дополнение к этому я регрессировал (фактически, сглаживал) x против y (несмотря на то, что y характеризовался как «зависимый»): я думаю, что результат был полезен для оценки нелинейности отношений таким способом, который не зависит от того, является ли y следует рассматривать как одну или две группы.
whuber

13

Хорошо, ребята, я последовал примеру Алексис и собрал данные. Вот сюжетжурналY против Икс, график бревна (Y) против X

И корреляции:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Корреляционный тест указывает на вероятную отрицательную зависимость. Я не убежден ни в какой бимодальности (но также не уверен, что она отсутствует).

[Я удалил остаточный график, который у меня был в более ранней версии, потому что я упустил момент, который @whuber пытался предсказать Икс|Y.]


2
Между прочим ... мне только что пришло в голову, что принятие логарифмического преобразования (Y) в качестве зависимого по-прежнему эквивалентно нахождению нелинейного отношения ... логарифм (Y) лучше по отношению к остаткам, чем функция шарнира, с которой я играл в мой ответ ... но один из выводов похож: связь между Y а также Икс имеет лучшие функциональные выражения, чем Yзнак равноa+бИкс,
Алексис

Спасибо за этот остаточный заговор, Расс. Это не просьба, но я хотел бы отметить, что то, что я нашел интересным - и, возможно, более ценным для изучения GoF - было отношение x как функции от y, а не наоборот. Анализ остатков x вызывает некоторые дополнительные (возможно, полезные) вопросы, которые до сих пор не поднимались, например, можем ли мы чему-то научиться с помощью нелинейных повторных выражений x (да, мы можем); Многое можно сказать, независимо от гипотезы о двух популяциях (да, опять же), и о надежности моей подгонки (это очень надежно).
whuber

Ну, может быть, вы хотите сделать остаточный сюжет для этого. Я перехожу к другим вещам.
RVL

5

Расс Лент спросил, как будет выглядеть график, если ось Y будет логарифмической. Алексис просмотрела данные, поэтому на них легко построить график с осью журнала:

введите описание изображения здесь

В логарифмическом масштабе нет намека на бимодальность или тренд. Разумеется, имеет ли смысл логарифмическая шкала, зависит, конечно, от деталей того, что представляют данные. Точно так же, имеет ли смысл думать, что данные представляют выборку из двух групп населения, как предполагает Уубер, зависит от деталей.


Приложение: На основе комментариев ниже, вот пересмотренная версия:

введите описание изображения здесь


Я разместил свой график в течение нескольких минут после того, как Расс Лент выложил свой график. Я не видел его, или я бы не отправил свой.
Харви Мотульский

Я считаю, что при оценке (прямолинейный) результаты регрессии сильнее с log (Y).
Алексис

9
На этом рисунке представлен интересный пример эффекта плохого выбора визуализации: уменьшив соотношение сторон и расширив ось Y более чем в два раза, насколько это необходимо, программное обеспечение автоматически подавляет визуальное впечатление от любого вертикального рассеяния, мешая зрителю видеть многое из всего. Вот почему хорошее исследование, хотя и руководствуется графическим представлением, должно (а) использовать подходящие методы визуализации, которые выявляют , а не подавлять поведение данных, и (б) поддерживать их дополнительным анализом (таким, как показано в посте @ Glen_b) ,
whuber

Для диапазонов Y в вопросе, логарифмическая база 2 была бы более простым выбором, чтобы иметь разумный диапазон значений для оси Y. Это также предотвратило бы верхний диапазон от хороших значений 1 и 1000, которые не соответствуют имеющимся данным.
Энди W

1

Ну, вы правы, отношения слабые, но не ноль. Я бы предположил, положительный. Однако не угадайте, просто запустите простую линейную регрессию (регрессия OLS) и узнайте! Там вы получите уклон ххх, который говорит вам, каковы отношения. И да, у вас есть выбросы, которые могут повлиять на результаты. С этим можно разобраться. Вы можете использовать расстояние Кука или создать график рычага, чтобы оценить влияние выбросов на отношения.

Удачи


Что заставляет вас думать, что они являются реальными выбросами, а не DGP нелинейными?
abaumann

Ну, я полагаю, что это также может быть так. Но трудно сказать, точки так разбросаны.
Хельги Гудмундссон

Зачем предполагать линейность с OLS? Непараметрическая регрессия FTW! :)
Алексис

1
@Alexis прав, подчеркивая, что такие предположения, как линейность, должны быть обоснованы, либо теорией предметной области, либо проверкой модели. Тем не менее, я считаю, что прямое удаление выбросов без тщательного рассмотрения причин возникновения таких значений является очень распространенной ошибкой статистического анализа.
abaumann

Да, выбросы нельзя удалить без веского обоснования, например, неправильного значения. Но преобразования могут помочь скорректировать распределение стоимости для лучшего соответствия и уменьшить выбросы. И да, я согласен, я считаю, что довольно часто удаляют выбросы без уважительной причины.
Хельги Гудмундссон

1

Вы уже предоставили некоторую интуицию в своем вопросе, посмотрев на ориентацию точек данных X / Y и их разброс. Короче ты прав.

В формальных терминах ориентация может называться знаком корреляции, а дисперсия - дисперсией . Эти две ссылки дадут вам больше информации о том, как интерпретировать линейные отношения между двумя переменными.


0

Это домашняя работа. Итак, ответ на ваш вопрос прост. Запустите линейную регрессию Y на X, вы получите что-то вроде этого:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Таким образом, t-статистика значима для переменной X с вероятностью 99%. Следовательно, вы можете объявить переменные как имеющие какую-то связь.

Это линейно? Добавьте переменную X2 = (X-mean (X)) ^ 2 и снова регрессируйте.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Коэффициент в X все еще значим, но X2 нет. Х2 представляет нелинейность. Итак, вы заявляете, что отношения кажутся линейными.

Выше было для домашней работы.

В реальной жизни все сложнее. Представьте, что это были данные о классе учеников. Y - жим лежа в фунтах, X - время в минутах задержки дыхания перед жимом лежа. Я бы попросил пол студентов. Просто для забавы, давайте добавим еще одну переменную, Z, и скажем, что Z = 1 (девочки) для всех Y <60, и Z = 0 (мальчики), когда Y> = 60. Запустите регрессию с тремя переменными:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Что произошло?! «Отношения» между X и Y исчезли! О, кажется, что отношения были ложными из-за смешанной переменной пола.

Какова мораль этой истории? Вы должны знать, что это за данные, чтобы «объяснить» «отношения», или даже установить их в первую очередь. В этом случае, в тот момент, когда мне сообщают, что данные о физической активности учеников, я сразу же спрашиваю их пол, и даже не буду анализировать данные без получения гендерной переменной.

С другой стороны, если вас попросят «описать» сюжет разброса, то все будет в порядке. Корреляции, линейные подгонки и т. Д. Для домашней работы достаточно двух вышеупомянутых шагов: посмотрите на коэффициент X (отношение), затем X ^ 2 (линейность). Удостоверьтесь, что вы удалили значение переменной X (вычтите среднее).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.