Как мне интерпретировать этот Scatter Plot?


12

У меня есть точечная диаграмма, размер выборки которой равен числу людей по оси x и средней зарплате по оси y. Я пытаюсь выяснить, влияет ли размер выборки на среднюю зарплату.

Это сюжет:

введите описание изображения здесь

Как мне интерпретировать этот сюжет?


3
Если вы можете, я бы предложил работать с преобразованием обеих переменных. Если ни одна из переменных не имеет точных нулей, взгляните на шкалу журнала
Glen_b -Reinstate Monica

@Glen_b извините, я не знаком с терминами, которые вы указали, просто взглянув на график, можете ли вы установить связь между этими двумя переменными? Я могу предположить, что для размера выборки до 1000 отношения не существует, поскольку для одинаковых значений размера выборки существует несколько средних значений. При значениях, превышающих 1000, средняя зарплата уменьшается. Как вы думаете ?
Самед

Я не вижу четких доказательств этого, мне это кажется довольно плоским; если есть явные изменения, это, вероятно, происходит в нижней части размера выборки. У вас есть данные или только изображение сюжета?
Glen_b

4
Если вы видите медиану как медиану n случайных величин, то имеет смысл, что изменение медианы уменьшается с увеличением размера выборки. Это объясняет большой разброс в левой части графика.
JAD

2
Ваше утверждение «для размера выборки до 1000 отношения не существует, поскольку для одинаковых значений размера выборки существует несколько медианных значений» неверно.
Питер Флом - Восстановить Монику

Ответы:


9

«Узнать» означает, что вы изучаете данные. Формальные тесты были бы лишними и подозрительными. Вместо этого примените стандартные методы анализа поисковых данных (EDA), чтобы выявить, что может быть в данных.

Эти стандартные методы включают повторное выражение , остаточный анализ , надежные методы («три R» в EDA) и сглаживание данных, как описано Джоном Тьюки в его классической книге EDA (1977). Как провести некоторые из них, изложенные в моем посте в Box-Cox как преобразование для независимых переменных? и в линейной регрессии, когда целесообразно использовать лог независимой переменной вместо фактических значений? в том числе .

В результате многое можно увидеть, если перейти к осям log-log (эффективно переразмеряя обе переменные), сгладить данные не слишком агрессивно и изучить остатки сглаживания, чтобы проверить, что они могли пропустить, как я проиллюстрирую.

Вот данные, показанные со сглаживанием, которое - после изучения нескольких сглаживаний с различной степенью точности данных - кажется хорошим компромиссом между слишком большим и слишком небольшим сглаживанием. Он использует Loess, хорошо известный надежный метод (он не подвержен сильному влиянию вертикально расположенных точек).

Логарифмическая диаграмма рассеяния

Вертикальная сетка с шагом 10000. Гладкое делает предложить некоторые вариации Grad_medianс образцом размером: кажется, падение , как размер выборки приближается 1000. (концов гладкий, не заслуживающее доверия - особенно для малых выборок, где ожидаются ошибка выборки , чтобы быть относительно большим - так дон не читайте слишком много в них.) Это впечатление реального падения поддерживается (очень грубыми) доверительными полосами, нарисованными программным обеспечением вокруг сглаживания: его "колебания" больше, чем ширина полос.

Чтобы увидеть, что этот анализ мог пропустить, на следующем рисунке рассматриваются остатки. (Это различия натуральных логарифмов, непосредственно измеряющих вертикальные расхождения между данными предыдущего сглаживания. Поскольку они представляют собой небольшие числа, их можно интерпретировать как пропорциональные различия; например, отражает значение данных, которое примерно на ниже, чем соответствующее сглаженное значение.)20 %0.220%

Нас интересует (а), существуют ли дополнительные схемы изменения при изменении размера выборки, и (б) являются ли условные распределения отклика - вертикальные распределения точек - правдоподобно похожими по всем значениям размера выборки, или может ли какой-то их аспект (например, их распространение или симметрия) измениться.

! [Рисунок 2 График остатков

Этот гладкий пытается следовать точкам данных еще более близко, чем прежде. Тем не менее он по существу горизонтальный (в пределах диапазона доверительных интервалов, которые всегда охватывают значение y ), что свидетельствует о том, что дальнейшие изменения не могут быть обнаружены. Небольшое увеличение вертикального разброса вблизи середины (размеры выборки от 2000 до 3000) не было бы значительным, если бы оно было формально проверено, и поэтому оно, безусловно, ничем не примечательно на этом этапе исследования. Нет четкого, систематического отклонения от этого общего поведения, явного в любой из отдельных категорий (отличающихся, не слишком хорошо, по цвету - я проанализировал их отдельно на рисунках, не показанных здесь).0.0

Следовательно, это простое резюме:

средняя зарплата примерно на 10000 ниже для выборки около 1000

адекватно фиксирует отношения, появляющиеся в данных, и, похоже, одинаково распространяется на все основные категории. Является ли это значительным, то есть будет ли оно выдержано при получении дополнительных данных, можно оценить только путем сбора этих дополнительных данных.


Для тех, кто хотел бы проверить эту работу или продолжить ее, вот Rкод.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b предлагает вам взять логарифм sample_size и средней зарплаты, чтобы увидеть, имеет ли смысл масштабирование данных.

Я не знаю, согласен ли я с вашей верой в то, что средняя зарплата уменьшается, когда размер выборки превышает 1000. Я был бы более склонен сказать, что нет никаких отношений вообще. Ваша теория предсказывает, что должны быть отношения?

Другой способ оценить возможную взаимосвязь - это подогнать линию регрессии к данным. В качестве альтернативы вы также можете использовать кривую низкого уровня. Отобразите обе строки в своих данных и посмотрите, можно ли что-нибудь выявить (однако я сомневаюсь, что есть что-то слишком существенное).


3
Диаграмма рассеяния очень похожа на воронкообразную диаграмму, используемую в метаанализе. Смотрите аналогичный пример . Построение воронкообразных полос более четко покажет, есть ли какие-либо отношения, в этом примере они могут быть слегка положительными.
Энди Ш

6

Я также согласен, что нет никаких отношений. Я воспроизвел ваш исходный график рассеяния (слева) и сделал график рассеяния в лог-журнале, предложенный glen_b (справа).

введите описание изображения здесь

Похоже, нет никакого отношения ни к одному. Корреляция между лог-преобразованными данными слабая (Пирсон R = -.13) и незначительная (p = .09). В зависимости от того, сколько у вас есть дополнительной информации, может быть причина видеть некоторую слабую отрицательную корреляцию, но это кажется натяжкой. Я предполагаю, что любая видимая картина, которую вы видите, имеет тот же эффект, что и здесь .

R=0.0022p=0.98


Спасибо за внимание к корреляции между граду-медианой и размером града-выборки; Я был глубоко озадачен разницей между числами!
famargar

0

Попытка линейной регрессии научит вас чему-то об этом отношении, как это предлагается в первом ответе. Похоже, что вы используете Python плюс Matplotlib для этого графика, вы находитесь на расстоянии одной строки кода от решения.

Вы можете использовать совместную диаграмму морского происхождения, которая также отобразит линию линейной регрессии, коэффициент корреляции Пирсона и его значение p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

введите описание изображения здесь

как видите, корреляции нет. Глядя на этот последний график, кажется, что лог-преобразование переменной x было бы полезно. Давай попробуем:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

введите описание изображения здесь

Вы можете ясно видеть, что - логарифмическое преобразование или нет - корреляция мала, и как значение p, так и доверительные интервалы говорят о том, что оно не является статистически значимым.


3
Признаки сильно искаженного условного распределения показывают, что это не очень хороший подход. Когда вы также заметите, что асимметрия распределения размера выборки приведет к тому, что несколько самых больших размеров выборки будут контролировать появление тенденции в регрессии, вы поймете, почему другие рекомендуют предварительные преобразования данных.
whuber

1
Я не догадываюсь и не спекулирую: сюжет в вопросе ясно показывает эти характеристики. Также посмотрите графики, созданные Р. Грегом Стейси , который - применяя предложенные преобразования log-log - демонстрирует, чего они достигают.
whuber

Я только что нашел данные и провел исследование сам - смотрите обновленный ответ.
famargar

Ваше исследование уступило двум проблемам, которые я отметил: появление «без корреляции» в немалой степени проистекает из искаженных условных ответов и рычагов для высоких значений регрессора. В частности, ни подобранная линия, ни ее полосы ошибок не заслуживают доверия.
whuber

Пожалуйста, посмотрите сюжет, который я только что добавил; Я надеюсь, что я ничего не пропустил в этой последней итерации.
famargar

-1

Этот график работает как демонстрация центральной предельной теоремы, где изменчивость между выборками уменьшается с увеличением размера выборки. Это также форма, которую вы могли бы ожидать с сильно искаженной переменной, такой как зарплата.


3
Это не независимые выборки из общей популяции. Это делает актуальность CLT довольно проблематичной.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.