Вы получаете очень хорошую информацию в комментариях, по моему мнению. Интересно, помогут ли некоторые базовые факты о логистической регрессии сделать эти вещи более понятными, поэтому с учетом этого позвольте мне высказать несколько вещей. В логистической регрессии коэффициенты находятся в логистической шкале (отсюда и название ...). Если вы добавите ковариатные значения для наблюдения, умножите их на коэффициенты и суммируете, вы получите логит .
e ≈ 2.718281828 e 2 = 7,389056 7,389056
логит = β0+ β1Икс1+ β2Икс2+ . , , + βКИксК
Логит - это число, которое ни для кого не имеет интуитивного смысла, поэтому очень трудно понять, что делать с числом, выглядит забавно (например, очень высоко или очень низко). Лучший способ понять эти вещи - преобразовать их из их первоначального масштаба (логитов) в тот, который вы можете понять, в частности вероятности. Для этого вы берете свой логит и возводите его в степень. Это означает, что вы берете число
e ( ) и поднимаете его до степени логита. Представьте, что ваш логит был 2:
Это даст вам шансы. Вы можете преобразовать шансы в вероятность, разделив шансы на единицу плюс шансы:
Люди обычно находят вероятность, с которой легче иметь дело.
e ≈ 2.718281828
е2= 7,389056
7.3890561 + 7,389056= 0,880797
Для вашей модели представьте, что у вас есть наблюдение, в котором значение всех ваших переменных равно 0, тогда все ваши коэффициенты выпадут, и у вас останется только ваше значение перехвата. Если мы возведем в степень ваше значение, мы получим 0 как шансы (если бы это было -700, шансы были бы , но я не могу заставить свой компьютер дать мне значение для -1060, это слишком мало, учитывая численные ограничения моего программного обеспечения). Преобразование этих шансов в вероятность, ( 0 / ( 1 + 0 )9,8 × 10- 3050 / ( 1 + 0 )), снова дает нам 0. Таким образом, ваш вывод говорит о том, что ваше событие (каким бы оно ни было) просто не происходит, когда все ваши переменные равны 0. Конечно, это зависит от того, о чем мы говорим, но я не нахожу ничего слишком примечательного это. Стандартное уравнение логистической регрессии (скажем, без квадрата, например) обязательно предполагает, что связь между ковариатой и вероятностью успеха либо монотонно увеличивается, либо монотонно уменьшается, Это означает, что он всегда становится все больше и больше (или все меньше и меньше), и поэтому, если вы зайдете достаточно далеко в одном направлении, вы получите такие маленькие цифры, что мой компьютер не может отличить их от 0. Это просто природа зверя. Как это бывает, для вашей модели далеко идущий путь - это то, где ваши ковариатные значения равны 0.
Что касается коэффициента 0, это означает, что эта переменная не имеет никакого эффекта, как вы предлагаете. Теперь вполне разумно, что переменная не будет иметь эффекта, тем не менее, вы в принципе никогда не получите коэффициент равный 0. Я не знаю, почему это произошло в этом случае; комментарии предлагают некоторые возможные предложения. Я могу предложить другое, что в этой переменной не может быть никаких изменений. Например, если у вас была переменная, которая закодирована для пола, но только женщины в вашей выборке. Я не знаю, является ли это реальным ответом (R, например, возвращает NA
в этом случае, но программное обеспечение отличается) - это просто еще одно предложение.