Сравнение двух моделей линейной регрессии


12

Я хотел бы сравнить две модели линейной регрессии, которые представляют скорости деградации мРНК во времени в двух разных условиях. Данные для каждой модели собираются независимо.

Вот набор данных.

Время (часы) log (обработка A) log (обработка B)
0 2.02 1.97
0 2.04 2.06
0 1,93 1,96
2 2.02 1.91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2.02 1.99
4 2.02 1.99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2.12 1,99
8 2.06 1.93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Это мои модели:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Вызов:
лм (формула = Exp1 $ Время ~ Exp1 $ (Обработка A))

Остаточные:
    Мин 1Q Медиана 3Q Макс 
-6,8950 -1,2322 0,2862 1,2494 5,2494 

Коэффициенты:
                   Оценка Станд. Значение ошибки t Pr (> | t |)    
(Перехват) 74,68 6,27 11,91 2,94e-10 ***
Exp1 $ (Обработка A) -36,14 3,38 -10,69 1,77e-09 ***
---
Signif. коды: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 '' 1

Остаточная стандартная ошибка: 2,97 на 19 степеней свободы
R-квадрат: 0,8575, R-квадрат: 0,85 
F-статистика: 114,3 на 1 и 19 DF, значение p: 1,777e-09

Вызов:
лм (формула = Exp1 $ Время ~ Exp1 $ (Обработка B))

Остаточные:
   Мин 1Q Медиана 3Q Макс 
-7,861 -3,278 -1,444 3,222 11,972 

Коэффициенты:
                      Оценка Станд. Значение ошибки t Pr (> | t |)    
(Перехват) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (Обработка B) -41,668 8,343 -4,994 8,05e-05 ***
---
Signif. коды: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 '' 1

Остаточная стандартная ошибка: 5,173 на 19 степенях свободы
R-квадрат: 0.5676, R-квадрат: 0.5449 
F-статистика: 24,94 на 1 и 19 DF, значение p: 8,052e-05

Чтобы сравнить эти две модели, я использовал следующий код.

anova(Exp1.A.lm,Exp1.B.lm)
Анализ таблицы отклонений

Модель 1: Exp1 $ Время ~ Exp1 $ Exp1 $ (Обработка A)
Модель 2: Exp1 $ Время ~ Exp1 $ Exp1 $ (Обработка B)
  Res.Df RSS Df Сумма Sq F Pr (> F)
1 19 167.60                      
2 19 508,48 0 -340,88

Мой вопрос заключается в том, почему анализ ANOVA не показывает F-статистику и p.val. Мои извинения, если это наивный вопрос.

Исходя из разных уклонов, скорость деградации в этих двух моделях различна, но я хотел бы знать, насколько статистически значима эта разница. Я надеюсь, что это имеет смысл.


2
Вы можете заметить, что в таблице ANOVA степени свободы, связанные с анализом, равны 0 ; у вас одинаковое количество переменных в обеих моделях, поэтому нельзя вычислять значения F или p.
gung - Восстановить Монику

5
Я бы не стал сравнивать эти модели, пока не проверил их пригодность. Я думаю, вы найдете во втором, что ни ответ, ни его логарифм не являются линейными функциями времени. Это ставит (серьезно) под сомнение любое сравнение оценок наклона.
whuber

Ответы:


11

Если вы установите данные в одном длинном столбце с A и B в качестве нового столбца, вы сможете запустить свою регрессионную модель как GLM с непрерывной переменной времени и номинальной переменной «эксперимента» (A, B). Вывод ANOVA даст вам значимость разницы между параметрами. «Перехват» - это общий перехват, а фактор «эксперимента» будет отражать различия между перехватами (фактически, средними значениями) между экспериментами. «Время» будет общим уклоном, а взаимодействие - разницей между экспериментами в отношении к склону.

Я должен признать, что я обманываю (?) И сначала запускаю модели по отдельности, чтобы получить два набора параметров и их ошибки, а затем запускаю комбинированную модель, чтобы получить различия между обработками (в вашем случае A и B) ...


3
Это умный подход. Когда вы читерете, проверяете ли вы, что отклонения ошибок примерно одинаковы в каждой модели? И если они кажутся существенно различными, как это влияет на ваши рекомендации?
whuber

GLM - это хороший подход, и для изучения данных подгонка отдельных моделей является хорошим способом оценки отклонения ошибки между экспериментами. Если бы кто-то был действительно обеспокоен, они могли бы расширить модель GLM, включив в нее дисперсии ошибок, характерные для группы, а не неявное предположение об общей дисперсии ошибок для всех экспериментальных данных.
prince_of_pears

Еще одна вещь, которая приходит на ум, это то, заинтересован ли OP в торговле, отличаются ли темпы деградации между экспериментами просто друг от друга (игнорируя абсолютную ставку), или же эти ставки также статистически (или практически) отличаются от нуля. Первое сводится к проверке гипотезы о том, что коэффициент взаимодействия между лечением и временем равен нулю. Второй - выполнить два отдельных теста (или один совместный тест гипотезы), чтобы каждый показатель отличался от нуля. Я мог бы быть более заинтересован в тестировании второго до первого.
prince_of_pears

5

Анализ ANOVA не показывает статистику F и значение p., поскольку обе модели имеют одинаковые остаточные степени свободы (т.е. 19), и если вы берете разницу, то она будет равна нулю! Должна быть как минимум одна степень свободы после того, как вы берете разницу, чтобы выполнить F-тест.


Я не уверен, что понимаю ваш ответ. Есть ли причина, по которой остаточные степени свободы равны? Любое предложение об альтернативном подходе для сравнения склонов?
Rooz

Да, есть. В обеих ваших моделях у вас есть 21 наблюдение, т.е. . В линейной регрессии с одним пояснительной случайной величиной (т.е. либо exp1 ( Т г е с т м е н т ) о г Е х р 1 (Лечение В)), степень свободы для регрессор один. Общая степень свободы д о г + д е р е г р е с с о р ы . Так д е еNзнак равно21(TреaTмеNTA)орЕИксп1dеTзнак равноN-1знак равно20dеTзнак равноdееррор+dереграммреssорsdееррорзнак равно19

Есть много способов сравнить их, кроме F-теста. Самый простой из них - использовать множественный R-квадрат и скорректированный R-квадрат, как в сводках. Модель с более высоким R-квадратом или отрегулированный R-квадрат лучше. Здесь, кажется, лучшая модель с Exp1 $ (обработка A). Но помните, что вы должны проверить остатки вашей модели, чтобы проверить адекватность подобранной модели. Лично я не рекомендую полагаться только на критерии R-квадрата, и вам следует проверить и другие предположения в линейной модели. Особенно посмотреть, если остатки автокоррелированы или нет.
Стат
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.