То, что вы сделали, это логистическая регрессия . Это может быть сделано в основном в любом статистическом программном обеспечении, и результат будет аналогичным (по крайней мере, по содержанию, хотя представление может отличаться). На превосходном веб-сайте помощи статистики в UCLA есть руководство по логистической регрессии с R. Если вы не знакомы с этим, мой ответ здесь: разница между логит-моделями и пробит-моделями может помочь вам понять, что такое LR (хотя он написан в другом контексте).
Похоже, у вас представлены две модели, я сосредоточусь в первую очередь на верхней. Кроме того, по- видимому, была допущена ошибка при копировании и вставке модели или выход, так что я поменяются leaves.presence
с Area
на выходе , чтобы привести его в соответствие с моделью. Вот модель, на которую я ссылаюсь (обратите внимание, что я добавил (link="logit")
, что подразумевается под family=binomial
; see ? Glm и ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Давайте пройдемся по этому выводу (обратите внимание, что я изменил имя переменной во второй строке ниже Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Так же, как есть остатки в линейной (OLS) регрессии, могут быть остатки в логистической регрессии и других обобщенных линейных моделях. Однако они более сложны, когда переменная ответа не является непрерывной. GLiM могут иметь пять различных типов остатков, но то, что входит в стандартный список, - это отклонения от отклонений. ( Остатки отклонений и отклонений являются более продвинутыми, поэтому я буду кратким здесь; если за этим обсуждением будет довольно трудно следовать, я бы не стал слишком беспокоиться, вы можете его пропустить):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Для каждой точки данных, используемой в вашей модели, вычисляется отклонение, связанное с этой точкой. Сделав это для каждой точки, у вас есть набор таких остатков, и вышеприведенный вывод представляет собой просто непараметрическое описание их распределения.
Далее мы видим информацию о ковариатах, которая обычно интересует людей:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Для простой модели логистической регрессии, подобной этой, существует только один ковариат ( Area
здесь) и перехват (также иногда называемый «константой»). Если бы у вас была множественная логистическая регрессия, под ними были бы перечислены дополнительные ковариаты, но интерпретация выходных данных была бы такой же. Во Estimate
втором ряду находится коэффициент, связанный с переменной, указанной слева. Это приблизительная сумма, на которую leaves.presence
увеличатся шансы , если бы они Area
были на единицу выше. Журнал шансов, leaves.presence
когда Area
это0чуть выше в первом ряду. (Если вы недостаточно знакомы с коэффициентами ведения журнала, это может помочь вам прочитать мой ответ здесь: интерпретация простых прогнозов и соотношений коэффициентов в логистической регрессии .) В следующем столбце мы видим стандартную ошибку, связанную с этими оценками. То есть они являются оценкой того, насколько в среднем эти оценки будут отклоняться, если исследование будет повторяться идентично, но с новыми данными, снова и снова. (Если вы не очень знакомы с идеей стандартной ошибки, это может помочь вам прочитать мой ответ здесь: как интерпретировать стандартные ошибки коэффициента в линейной регрессии.) Если бы мы поделили оценку на стандартную ошибку, мы бы получили частное, которое, как предполагается, обычно распределяется с достаточно большими выборками. Это значение указано в разделе z value
. Ниже Pr(>|z|)
перечислены двусторонние p-значения, которые соответствуют этим z-значениям в стандартном нормальном распределении. Наконец, есть звезды традиционной значимости (и обратите внимание на ключ под таблицей коэффициентов).
По Dispersion
умолчанию строка печатается с GLiM, но здесь не добавляется много информации (это более важно, например, для моделей подсчета). Мы можем игнорировать это.
Наконец, мы получаем информацию о модели и ее пригодности:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Строка о missingness
часто отсутствует. Он показывает здесь , потому что вы имели 314 наблюдений , для которых либо leaves.presence
, Area
или оба пропали без вести. Эти частичные наблюдения не использовались при подборе модели.
Это Residual deviance
мера несоответствия вашей модели, взятая в целом, тогда как Null deviance
это мера для сокращенной модели, которая включает только перехват. Обратите внимание, что степени свободы, связанные с этими двумя, отличаются только на одну. Поскольку ваша модель имеет только один ковариат, был оценен только один дополнительный параметр ( Estimate
для Area
), и, таким образом, была использована только одна дополнительная степень свободы. Эти два значения могут быть использованы при проведении проверки модели в целом, которая была бы аналогична глобальнойFтест, который идет с моделью множественной линейной регрессии. Поскольку у вас есть только одна ковариата, такой тест в этом случае будет неинтересен.
AIC является еще одной мерой СОГЛАСИЯ , которая принимает во внимание способность модели , чтобы соответствовать данным. Это очень полезно при сравнении двух моделей, в которых одна может подходить лучше, но, возможно, только благодаря большей гибкости и, следовательно, лучшей способности соответствовать любым данным. Поскольку у вас есть только одна модель, это неинформативно.
Ссылка на Fisher scoring iterations
имеет отношение к тому, как модель была оценена. Линейная модель может быть подобрана путем решения уравнений в замкнутой форме. К сожалению, это невозможно сделать с большинством GLiM, включая логистическую регрессию. Вместо этого используется итеративный подход ( алгоритм Ньютона-Рафсона по умолчанию). В общем, модель подходит на основе предположения о возможных оценках. Затем алгоритм осматривается, чтобы увидеть, будет ли улучшено соответствие, используя вместо этого различные оценки. Если это так, он движется в этом направлении (скажем, используя более высокое значение для оценки), а затем снова соответствует модели. Алгоритм останавливается, когда он не видит, что повторное перемещение приведет к значительным дополнительным улучшениям. Эта строка сообщает вам, сколько было итераций до остановки процесса и выводило результаты.
Относительно второй модели и вывода, который вы перечисляете, это просто другой способ отображения результатов. В частности, эти
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
Это те же самые оценки, которые обсуждались выше (хотя и из другой модели и представлены с менее дополнительной информацией).