Изучение статистических концепций с помощью анализа данных

18

Я считаю, что простые упражнения по анализу данных часто могут помочь проиллюстрировать и уточнить статистические концепции. Какие упражнения по анализу данных вы используете для обучения статистическим понятиям?

teaching

— Brett Magill
источник

9

Поскольку мне приходится объяснять методы выбора переменных довольно часто, не в контексте обучения, а для тех, кто не занимается статистикой и запрашивает помощь в своих исследованиях, мне нравится этот чрезвычайно простой пример, который иллюстрирует, почему выбор одной переменной не всегда является хорошей идеей.

Если у вас есть этот набор данных:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Это не займет много времени, чтобы понять, что и X1, и X2 по отдельности абсолютно неинформативны для y (когда они одинаковы, y «обязательно» будет 1 - я игнорирую здесь проблемы с размером выборки, просто предположим, что эти четыре наблюдения быть всей вселенной). Однако комбинация двух переменных является полностью информативной. Таким образом, людям легче понять, почему не стоит (например) проверять значение p только для моделей с каждой отдельной переменной в качестве регрессора.

По моему опыту, это действительно передает сообщение.

— Ник Сабби
источник

5

Коэффициенты множественной регрессии и ошибка ожидаемого знака

Одной из моих любимых иллюстраций статистической концепции с помощью анализа данных является деконструкция множественной регрессии в множественные двумерные регрессии.

Цели

Для уточнения значения коэффициентов регрессии при наличии нескольких предикторов.
Чтобы проиллюстрировать, почему неправильно «ожидать», что коэффициент множественной регрессии будет иметь определенный знак, основанный на его двумерном отношении с Y, когда предикторы коррелируют.

концепция

Коэффициенты регрессии в модели множественной регрессии представляют собой отношение между а) частью данной переменной предиктора (x1), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели; и 2) часть переменной отклика (Y), которая не связана со всеми другими переменными предиктора (x2 ... xN) в модели. Когда существует корреляция между предикторами, знаки, связанные с коэффициентами предиктора, представляют отношения между этими остатками.

Упражнение

Создайте несколько случайных данных для двух предикторов (x1, x2) и ответа (y).
Регресс у на х2 и сохранить остатки.
Регресс х1 на х2 и сохранить остатки.
Регрессировать остатки этапа 2 (r1) на остатки этапа 3 (r2).

Коэффициент для шага 4 для r2 будет коэффициентом x1 для модели множественной регрессии с x1 и x2. Вы можете сделать то же самое для x2, разделив x1 на y и x2.

Вот код R для этого упражнения.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Вот соответствующие результаты и результаты.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00***

— Brett Magill
источник