Какое значение имеют коэффициенты логистической регрессии?


42

В настоящее время я читаю статью, касающуюся места голосования и предпочтений при голосовании на выборах 2000 и 2004 годов. В нем есть диаграмма, которая отображает коэффициенты логистической регрессии. Из курсов лет назад и немного читаяЯ понимаю логистическую регрессию как способ описания взаимосвязи между несколькими независимыми переменными и двоичной переменной ответа. Что меня смущает, так это приведенная ниже таблица, поскольку на юге коэффициент логистической регрессии равен 0,903, означает ли это, что 90,3% южан голосуют за республиканцев? Из-за логистической природы метрики этой прямой корреляции не существует. Вместо этого я полагаю, что вы можете только сказать, что юг с 0,903 голосует за республиканцев больше, чем горы / равнины, с регрессией 0,506. Учитывая последний случай, как я узнаю, что важно, а что нет, и можно ли экстраполировать процент республиканских голосов, учитывая этот коэффициент логистической регрессии. Таблица, показывающая коэффициенты логистической регрессии

Как примечание, пожалуйста, отредактируйте мой пост, если что-то указано неправильно


Это скорее вопрос продолжения (и я, вероятно, не должен его публиковать), но вы нашли хороший способ «можно ли экстраполировать процент», потому что это в значительной степени то, что я ищу.
Стефан Андерссон

2
Я думаю, что было бы лучше, чтобы вы сформулировали это как отдельный вопрос и разместили его отдельно, а не как ответ здесь.
кардинал

Если кто-то задается вопросом о газете, то это статья Макки Ки и Дж. М. Тейгена « Зондирование красного и синего: секционализм и расположение избирателей на президентских выборах 2000 и 2004 годов (2009)» Политическая география
Алекс Нельсон,

Ответы:


36

То , что автор заставил кого - то , как вдумчивые , как вы , чтобы задать вопрос , как это убедительные иллюстрации того , почему практика - еще путь слишком часто - удерживающая отчетность результатов регрессионной модели в таблицу , как это так неприемлемо.

  1. Как указывалось выше, вы можете попытаться преобразовать логит-коэффициент в какое-то значимое указание оцениваемого эффекта для рассматриваемого предиктора, но это громоздко и не дает информации о точности прогноза, что обычно довольно важно в модель логистической регрессии (в частности, при голосовании).

  2. Кроме того, использование нескольких звездочек для сообщения о «уровнях» значимости усиливает заблуждение, что p-значения являются неким значимым показателем величины эффекта («вау, у кого есть 3 звездочки !!»); для вслух вопля от 10000 до 20000 совершенно тривиальные различия будут "значительными" при p <0,001 бла-бла.

  3. Нет никакой необходимости мистифицировать таким образом. Модель логистической регрессии - это уравнение, которое можно использовать (посредством детерминированных вычислений или, что еще лучше, моделирования) для прогнозирования вероятности исхода, обусловленного указанными значениями для предикторов, в зависимости от ошибки измерения. Таким образом, исследователь должен сообщитькаково влияние предикторов интереса на вероятность представляющей интерес переменной результата и связанной с ней CI, измеряемой в единицах, практическую важность которых можно легко понять. Чтобы обеспечить готовность к восприятию, результаты должны быть графически отображены. Здесь, например, исследователь может сообщить, что, будучи сельским избирателем, а не городским избирателем, вероятность избрания республиканца, при прочих равных условиях, увеличивается на X% (я предполагаю, что в 2000 году около 17; «делить на 4» - это разумная эвристика) +/- x% при уровне доверия 0,95 - если это то, что полезно знать.

  4. Сообщение о псевдо R ^ 2 также является признаком того, что разработчик моделей участвует в статистическом ритуале, а не в какой-либо попытке пролить свет. Есть множество способов вычислить «псевдо R ^ 2»; Кто-то может жаловаться, что используемый здесь не указан, но зачем? Все рядом бессмысленно. Единственная причина, по которой кто-либо использует псевдо R ^ 2, заключается в том, что они или рецензент, который их мучает, узнали (вероятно, 25 или более лет назад), что линейная регрессия OLS является священным граалем статистики и считает, что единственное, что когда-либо пытаются выяснить это «объяснение дисперсии». Существует множество надежных способов оценки адекватности общей модели, пригодной для логистического анализа, и отношение правдоподобия дает значимую информацию для сравнения моделей, отражающих альтернативные гипотезы. Кинг Г. Как не врать со статистикой, Am. J. Pol. Sci. 30, 666-687 (1986).

  5. Если вы читаете статью, в которой отчетность более или менее ограничена таблицей, как эта, не путайте, не пугайтесь и, безусловно, не впечатляйтесь; вместо этого будьте сердиты и скажите исследователю, что он или она выполняет паршивую работу (особенно, если он или она загрязняет вашу местную интеллектуальную среду мистиками и трепетом - удивительно, как много посредственных мыслителей заставляют умных людей думать, что они знают что-то, / c они могут создать таблицу, которую последний не может понять). Для умных и умеренных изложения этих идей см. King, G., Tomz, M. & Wittenberg., J. Использование статистического анализа: улучшение интерпретации и представления . Am. J. Pol. Sci. 44, 347-361 (2000); и Gelman A., Pasarica C. & Dodhia R.Давайте попрактикуемся в том, что проповедуем: превращая таблицы в графики . Am. Стат. 56, 121-130 (2002).


19

Идея здесь заключается в том, что в логистической регрессии мы прогнозируем не реальную вероятность того, что, скажем, южанин голосует за республиканцев, а трансформированную версию, «логарифмические шансы». Вместо вероятности мы имеем дело с и находим коэффициенты линейной регрессии для лог-шансов.log p / ( 1 - p )plogp/(1p)

Так, например, давайте предположим, что у городского северо-востока вероятность 0,3 для голосования за республиканца составляет 0,3. (Это, конечно, было бы частью регрессии; я не вижу, чтобы это сообщалось в этой таблице, хотя я предполагаю, что это в оригинальной статье.) Теперь, дает ; то есть , «шансы журнала», соответствующие . Эти «шансы журнала» - это то, что ведет себя линейно; логарифмические коэффициенты, соответствующие равны . Таким образом, логарифмические шансы для городского южанина, голосующего за республиканцев, таковы (то, что Википедия называет перехватом, ) плюс коэффициент логистической регрессии для юга,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - то есть . Но вам нужна реальная вероятность, поэтому нам нужно инвертировать функцию . Это дает . Фактические шансы увеличились с до , с до ; отношение составляет , экспонента коэффициента логистической регрессии.0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

Кроме того, эффекты, скажем, для региона страны и городского / пригородного / сельского не взаимодействуют. Таким образом, в соответствии с этой моделью логарифм сельского республиканца, голосующего на Среднем Западе, составляет ; вероятность составляет .0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
эвристический: разделить на 4 - логитный коэффициент / 4 составляет приблизительно pct-pt diff в вероятности. от 1 единицы смены. Это не то же самое, что сказать, что «человек с / subn charcteristic = z вероятно на x%». Не только (как отмечено) нужно добавить βsub0 и вычесть вероятность, связанную с классом ref. Также необходимо учитывать коллинеарность предикторов. Поскольку южное направление коррелирует с другими предикторами, это не будет правдой. repub для южанина - βsub0 - трансформированные лог-шансы для NE плюс трансформированные лог-шансы для юга. Проще говоря, «при прочих равных, с юга предсказывает изменение точки x pct в вероятности»
dmk38

1
«Фактические шансы увеличились с 0,43 до 1». Откуда взялась 0,43?
Моника Хедднек

Исходная вероятность , выраженная как шансы, равна . 0.30.3/(10.3)0.43
Майкл Луго

6

Коэффициенты в логистической регрессии представляют тенденцию для данного региона / демографического голоса голосовать за республиканцев по сравнению с контрольной категорией. Положительный коэффициент означает, что регион с большей вероятностью проголосует за республиканца, и наоборот за отрицательный коэффициент; большее абсолютное значение означает более сильную тенденцию, чем меньшее значение.

Эталонными категориями являются «Северо-восток» и «городской избиратель», поэтому все коэффициенты представляют контрасты с этим конкретным типом избирателей.

В общем, нет также ограничений на коэффициенты в логистической регрессии, которые должны быть в [0, 1], даже в абсолютном значении. Обратите внимание, что в самой статье Википедии есть пример логистической регрессии с коэффициентами -5 и 2.


5

Вы также спросили: «Как я знаю, что важно, а что нет». (Я предполагаю, что вы имеете в виду статистически значимое, поскольку практическое или существенное значение - это другое дело.) Звездочки в таблице относятся к сноске: некоторые эффекты отмечены как имеющие небольшие значения р . Они получены с использованием теста Вальда значимости каждого коэффициента. Предполагая случайную выборку, p <.05 означает, что, если бы не было такого эффекта в большей популяции, вероятность увидеть соединение столь же сильное, как наблюдаемое или более сильное, в выборке такого размера было бы меньше .05 , На этом сайте вы увидите множество тем, обсуждающих тонкий, но важный связанный с этим вопрос, который не дает p <.05 означает, что есть вероятность, что в большей части населения не будет никакой связи.


5

Позвольте мне подчеркнуть важность того, что оба rolando2 и dmk38 отметили: значимость обычно неверно истолковывается, и существует высокий риск того, что это произойдет при таком табличном представлении результатов.

Пол Шродт недавно предложил хорошее описание проблемы:

Исследователи считают почти невозможным придерживаться правильной интерпретации теста значимости. Значение p говорит вам только о вероятности того, что вы получите результат при [обычно] совершенно нереальных условиях нулевой гипотезы. Это не то, что вы хотите знать - вы обычно хотите знать величину эффекта независимой переменной, учитывая данные. Это Байесовский вопрос, а не частый вопрос. Вместо этого мы видим - постоянно - значение p, интерпретируемое так, как будто оно дает силу ассоциации: это вездесущий Мистический Культ Звезд и Значений P, который пронизывает наши журналы. (Fn) Это не то, что говорит значение p и никогда не будет.

По моему опыту, этой ошибки почти невозможно избежать: даже очень осторожные аналитики, которые полностью осведомлены о проблеме, часто переключают режимы при устном обсуждении своих результатов, даже если они избегают проблемы в письменном изложении. И давайте даже не будем рассуждать о тысячах часов и галлонах чернил, которые мы потратили, чтобы исправить это в выпускных статьях.

(fn) Сноска также сообщает о другой проблеме, упомянутой в dmk38: «[вездесущий Мистический Культ Звезд и Р-значений] вытеснил более ранний и столь же распространяющийся Культ Высшего R2, разрушенный… Королем (1986) «.


о, я только что добавил Кинга цитировать в мой отредактированный ответ. Статья действительно разрушает манию R ^ 2 (все еще свойственную эконометрике) даже там, где статистика имеет значение - для регрессии МНК. Кинг также отмечает, что это псевдо R ^ 2 - это бред, который был создан для того, чтобы продлить легкомыслие, связанное с «объяснением дисперсии».
dmk38
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.