Разница между регрессионным анализом и дисперсионным анализом?


21

Сейчас я учусь регрессионному анализу и анализу отклонений.

В регрессионном анализе у вас есть одна фиксированная переменная, и вы хотите знать, как переменная идет с другой переменной.

При анализе отклонений вы хотите знать, например: если эта конкретная пища для животных влияет на вес животных ... ТАК один фиксированный вариант и влияние на других ...

Это правильно или неправильно, пожалуйста, помогите мне ...

Ответы:


25

Предположим, что ваш набор данных состоит из набора для i = 1 , , n, и вы хотите посмотреть на зависимость y от x .(xi,yi)i=1,,nyx

Предположим , что вы найдете значения α и β в α и β , которые минимизируют остаточную сумму квадратов п Е я = 1 ( у я - ( α + β х я ) ) 2 . Тогда вы берете у = α + β х будет предсказанное у -значение для любого (не обязательно уже наблюдается) х -value. Это линейная регрессия.α^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

Теперь рассмотрим разложение полной суммы квадратов сп-1степенями свободы, в "объяснено" и "необъяснимые" части: п Σ я = 1 ( ( α + β х я ) - ˉ у ) 2 объяснено+ п Σ я = 1 ( у я - ( α + β х я ) ) 2 необъясненный. с1

i=1n(yiy¯)2where y¯=y1++ynn
n1
i=1n((α^+β^xi)y¯)2explained + i=1n(yi(α^+β^xi))2unexplained.
1и степени свободы соответственно. Это дисперсионный анализ, а затем один считает такие вещи , как F-статистики F = Е п я = 1 ( ( & alpha ; + & beta ; х я ) - ˉ у ) 2 / 1n2ЭтаF-статистика проверяет нулевую гипотезуβ=0.
F=i=1n((α^+β^xi)y¯)2/1i=1n(yi(α^+β^xi))2/(n2).
β=0

y=α+βi
ikk1nk

Пара дополнительных очков:

  • Некоторым математикам приведенный выше отчет может создать впечатление, что целое поле - это только то, что видно выше, поэтому может показаться загадочным, что регрессия и анализ отклонений являются активными областями исследований. Есть много вещей, которые не вписываются в ответ, подходящий для публикации здесь.
  • y=α+βx

5
@MichaelHardy Хотя разложение дисперсии на компоненты в регрессии часто называют анализом таблицы отклонений. Это не то, что статистики обычно подразумевают под ANOVA. Методы 1) линейная регрессия, 2) дисперсионный анализ и 3) анализ ковариации являются категориями под общим заголовком общей линейной модели, линейная регрессия включает в себя непрерывные ковариаты, ANOVA включает только дискретные группы, а ANCOVA представляет собой комбинацию непрерывных ковариат и дискретные группы.
Майкл Р. Черник

1
Неофициально иногда говорят так, и мой ответ не сказал этого, но нужно знать, что (1) оценка коэффициентов методом наименьших квадратов выполняется в любой из двух задач (непрерывных или категориальных предикторов) и в разложении суммы квадратов с соответствующими степенями свободы - таблица anova - также делается в любой из двух задач.
Майкл Харди

5
С этой уступкой вы должны согласиться, что с моим ответом все в порядке. Также термины ANOVA, ANCOVA и регрессия не являются неформальными терминами. Они очень отчетливо формальны, и неправильно говорить ОП, что ANOVA - это разложение дисперсии в регрессии. Тот факт, что статистическая процедура, которую кто-то назвал anova, может выполнять любую линейную модель, ничего не доказывает. В SAS proc reg имеет дело только с регрессией, proc anova имеет дело только с дисперсионным анализом, как я его определил, и proc glm - это то, что делает оба.
Майкл Р. Черник

1
.... а в R "lm (....)" дает коэффициенты регрессии в обеих ситуациях, а "anova (lm (....))" дает разложение суммы квадратов и степеней свободы, в обеих ситуациях. Что касается «приходится уступать», я добавил несколько комментариев ниже вашего ответа. Конечно, если вы собираетесь упомянуть логистическую регрессию, было бы более понятно, если бы вы сказали, что, как только вы не говорите о линейной регрессии, слово «регрессия» является очень широким термином, который может включать в себя много вещей.
Майкл Харди

@MichaelHardy Не стесняйтесь комментировать мой вопрос, поднятый на сайте stats.SE. Я думаю, что ваш ответ и мой ответ на этот вопрос в каком-то смысле верны. Я, конечно, возражаю против того, чтобы мой ответ был опущен. Я хотел узнать мнение других статистиков по этому поводу.
Майкл Р. Черник

5

Основным отличием является переменная ответа. В то время как логистическая регрессия имеет дело с двоичным ответом в линейном регрессионном анализе, а также с нелинейной регрессией, переменная ответа является непрерывной. У вас есть переменная (и) (или ковариата (ы)), которые функционально связаны с переменной непрерывного ответа. При анализе отклонений ответ является непрерывным, но он относится к нескольким различным категориям (например, группа лечения и контрольная группа). При анализе отклонений вы ищете разницу в среднем ответе между группами. В линейной регрессии вы смотрите, как изменяется ответ при изменении ковариат. Другой способ взглянуть на разницу - сказать, что в регрессии ковариаты непрерывны, тогда как в дисперсионном анализе они представляют собой дискретный набор групп.


6
Я бы взял вопрос, чтобы обозначить разницу между линейной регрессией и дисперсионным анализом; привнесение логистической регрессии, кажется, уходит от темы. Однако ваше последнее предложение неверно. Дисперсионный анализ может быть выполнен независимо от того, являются ли предикторы дискретными или непрерывными.
Майкл Харди

1
Есть действительно предикторы в анализе дисперсии. В вашем примере предиктор категоричен, но это не обязательно так. Дисперсионный анализ не только рассматривает проблемы, связанные с «дискретными группами».
Майкл Харди

3
@MichaelHardy Я делаю шаг назад, потому что, когда я проверяю свои статистические энциклопедии, я нахожу ссылку на анализ дисперсии с точки зрения разложения дисперсии в общей линейной модели. Но этот термин имеет два значения, и довольно часто ANOVA отличается от ANCOVA и регрессии, как я описал. Таким образом, OP должен знать оба термина: тот, который относится к выводу о компонентах дисперсии в общей линейной модели, и тот, который относится к подклассу линейных моделей, которые включают только дискретные группы.
Майкл Р. Черник

2
Я думаю, что вы используете неформально. Это кажется странным , говоря логистическую регрессию , не говоря , что это всего лишь один из множества «регрессий», когда этот термин используется в широком смысле оценки средней или прогнозируемое значение одной переменной заданной другой, а затем различать , что от дисперсионного анализа , Но вопрос о разнице между моделями линейной регрессии и дисперсионным анализом кажется более разумным вопросом. Но часто возникают сомнения относительно того, что задумал оригинальный плакат.
Майкл Харди

7
Какими бы ни были ваши намерения, я считаю, что комментарий « У меня есть докторская степень в области статистики ... » неуместен. Прежде всего, это не делает ничего, чтобы решить проблему под рукой. Обращение к власти - это часто используемый, но очень ошибочный подход к доказательству. Обращение к своему собственному авторитету еще более проблематично. Это также может быть интерпретировано как проявление (непреднамеренно или иным образом) неуважения к @MichaelHardy (личность, к которой вы обращаетесь), который также имеет докторскую степень в области статистики из очень уважаемой программы.
кардинал

2

Дисперсионный анализ (ANOVA) представляет собой совокупность статистического метода анализа наблюдений, предположительно имеющих структуру

yi=β1xi1+β2xi2++βpxip+ei, i=1(1)npβ1,β2,,βpe1,e2,,enxijei0σ2 (неизвестно).

E(yn×1)=Xβ,D(y)=σ2In D - дисперсионная матрица или дисперсионно-ковариационная матрица.

xijβjxijβj01

xijtTt2,eT и т. Д., То мы имеем случай * регрессионного анализа. В целом, в регрессионном анализе все факторы являются количественными и обрабатываются количественно.

В основном это два вида анализа.


язнак равно1(1)N ?

1
язнак равно1(1)N средства язнак равно1,2,...,N
Argha

-1

В регрессионном анализе у вас есть одна фиксированная переменная, и вы хотите знать, как переменная идет с другой переменной.

При анализе отклонений вы хотите знать, например: Если эта конкретная пища для животных влияет на вес животных ... ТАК один фиксированный вариант и влияние на других.


1
Привет, Айза, добро пожаловать в SE. Вы должны отредактировать это, чтобы дать больше контекста и прояснить, что на самом деле является вопросом.
Прекратить закрывать вопросы быстро
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.