В чем разница между моделью Logit и Probit ?
Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit.
Если есть какая-либо литература, которая определяет это, используя R , это также было бы полезно.
В чем разница между моделью Logit и Probit ?
Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать Probit.
Если есть какая-либо литература, которая определяет это, используя R , это также было бы полезно.
Ответы:
Они в основном отличаются по функции ссылки.
В Logit:
В пробите: (кумулятивный нормальный pdf)
С другой стороны, у логистики есть немного более плоские хвосты. т.е. кривая пробита приближается к осям быстрее, чем кривая логита.
Логит имеет более простую интерпретацию, чем пробит. Логистическая регрессия может быть интерпретирована как логарифмические шансы (то есть те, кто курит> 25 сигарет в день, в 6 раз чаще умирают до 65 лет). Обычно люди начинают моделирование с логита. Вы можете использовать значение правдоподобия каждой модели, чтобы выбрать логит против пробита.
Стандартная линейная модель (например, простая модель регрессии) может рассматриваться как состоящая из двух «частей». Они называются структурным компонентом и случайным компонентом . Например:
Первые два слагаемых (то есть β 0 + β 1 X ) составляют структурный компонент, и ε
Функция связывания является ключом к GLiM: поскольку распределение переменной отклика не является нормальным, это то, что позволяет нам соединить структурный компонент с откликом - он «связывает» их (отсюда и название). Это также ключ к вашему вопросу, так как logit и probit - это ссылки (как объяснил @vinux), а понимание функций ссылок позволит нам разумно выбирать, когда использовать какую из них. Хотя может быть много функций связи, которые могут быть приемлемыми, часто есть одна особенность. Не желая слишком углубляться в сорняки (это может стать очень техническим), прогнозируемое среднее значение не обязательно будет математически таким же, как параметр канонического местоположения распределения отклика . Преимущество этого ; функция связи, которая приравнивает их, является канонической функцией связиСуществует "( немецкий Родригес ). Каноническая ссылка для двоичных данных ответа (более конкретно, биномиальное распределение) является логитом. Однако, есть много функций, которые могут отобразить структурный компонент на интервал , и, таким образом, быть приемлемым, пробит также популярен, но есть и другие варианты, которые иногда используются (такие как дополнительный журнал регистрации, ln ( - ln ( 1 - μ ), часто называемый «клоглог»). Таким образом, существует множество возможных функций связи, и выбор функции связи может быть очень важным. Выбор должен быть сделан на основе некоторой комбинации:
Охватив немного концептуального фона, необходимого для более ясного понимания этих идей (прости меня), я объясню, как эти соображения могут быть использованы для определения вашего выбора ссылки. (Позвольте мне отметить, что я думаю, что @ комментарий Дэвида точно отражает, почему разные ссылки выбраны на практике .) Для начала, если ваша переменная ответа является результатом испытания Бернулли (то есть или 1 ), ваше распределение ответов будет бином, и то, что вы на самом деле моделируете, - это вероятность того, что наблюдение будет 1 (то есть π ( Y = 1 ) ). В результате любая функция, которая отображает строку с действительным числом, ( , к интервалу ( 0 , 1 ) будет работать.
С точки зрения вашей предметной теории, если вы думаете, что ваши ковариаты напрямую связаны с вероятностью успеха, то вы обычно выбираете логистическую регрессию, потому что это каноническая связь. Однако рассмотрим следующий пример: вас просят моделироватьhigh_Blood_Pressure
как функцию некоторых ковариат. Само по себе артериальное давление обычно распределяется в популяции (я на самом деле не знаю, но это кажется разумным prima facie), тем не менее, клиницисты дихотомизировали его во время исследования (то есть, они регистрировали только «высокое АД» или «нормальное»). ). В этом случае пробит был бы предпочтительным априори по теоретическим причинам. Это то, что @Elvis подразумевает под "вашим двоичным результатом зависит от скрытой гауссовой переменной".симметричный , если вы считаете, что вероятность успеха медленно возрастает с нуля, но затем сужается быстрее по мере приближения к одному, вызывается клоглог и т. д.
Наконец, обратите внимание, что эмпирическое соответствие модели данным не поможет при выборе ссылки, если только формы рассматриваемых функций связи существенно не различаются (из которых логит и пробит не отличаются). Например, рассмотрим следующую симуляцию:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Даже когда мы знаем, что данные были сгенерированы с помощью пробитовой модели, и у нас есть 1000 точек данных, пробитная модель дает лучшее соответствие только в 70% случаев, и даже тогда, зачастую только на тривиальную величину. Рассмотрим последнюю итерацию:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
Причина этого заключается просто в том, что функции logit и probit link дают очень похожие выходы, когда дают одинаковые входные данные.
Функции logit и probit практически идентичны, за исключением того, что logit находится немного дальше от границ, когда они «поворачивают за угол», как сказал @vinux. (Обратите внимание , что для получения логита и пробито выравнивать оптимально, логит в должен быть ≈ 1,7 раза соответствующего значения наклона для пробит. Кроме того, я мог бы сместил cloglog над немного так , чтобы они лежали на вершине больше друг друга, но я оставил это в стороне, чтобы сделать рисунок более читабельным.) Обратите внимание, что клоглог асимметричен, а остальные нет; он начинает отходить от 0 раньше, но медленнее и приближается к 1, а затем резко поворачивает.
Еще пара вещей можно сказать о ссылочных функциях. Во-первых, рассмотрение тождественной функции ( ) в качестве функции связи позволяет нам понять стандартную линейную модель как частный случай обобщенной линейной модели (то есть распределение отклика нормальное, а связь - это тождественная функция). Также важно признать, что любое преобразование, которое создает ссылка, правильно применяется к параметру, управляющему распределением ответа (то есть μ ), а не к фактическим данным ответа, Наконец, поскольку на практике у нас никогда не было базового параметра для преобразования, при обсуждении этих моделей часто то, что считается фактической связью, остается неявным, и модель вместо этого представляет обратную функцию связи, применяемую к структурному компоненту. , То есть:
Например, логистическая регрессия обычно представляется:
π ( Y ) = exp ( β 0 + β 1 X )
Быстрый и ясный, но надежный обзор обобщенной линейной модели см. В главе 10 Fitzmaurice, Laird & Ware (2004) (на которую я опирался в некоторых частях этого ответа, хотя, поскольку это моя собственная адаптация этого - и другое - материальное, любые ошибки будут моими собственными). Чтобы узнать, как разместить эти модели в R, ознакомьтесь с документацией по функции ? Glm в базовом пакете.
(+1 к @vinux и @Elvis. Здесь я попытался предоставить более широкую среду, в которой можно обдумать эти вещи, а затем использовать ее для решения вопроса выбора между logit и probit.)
В дополнение к ответу Vinux, который уже говорит самое важное:
превышает некоторый «патологический порог».
должна проводиться с осторожностью.
По поводу вашего заявления
Мне больше интересно знать, когда использовать логистическую регрессию, а когда использовать пробит
Здесь уже есть много ответов, которые поднимают вопросы, которые следует учитывать при выборе между этими двумя, но есть одно важное соображение, которое еще не было сформулировано: когда вы заинтересованы в рассмотрении внутрикластерных ассоциаций в двоичных данных с использованием логистики смешанных эффектов или Для пробных моделей существует теоретическое обоснование предпочтения пробитной модели. Это, конечно, предполагает, что нет априорной причины для предпочтения логистической модели (например, если вы выполняете симуляцию и знаете, что это истинная модель).
Пирсон (1900) показал, что, если многофакторные нормальные данные были сгенерированы и порогово определены, чтобы быть категоричными, корреляции между базовыми переменными все еще были статистически идентифицированы - эти корреляции называются полихорическими корреляциями и, в конкретном случае для двоичного случая, они называются тетрахорическими корреляциями . Это означает, что в пробитной модели коэффициент внутриклассовой корреляции основных нормально распределенных переменных:
идентифицируется, что означает, что в пробитном случае вы можете полностью охарактеризовать совместное распределение лежащих в основе скрытых переменных .
В логистической модели случайная дисперсия эффекта в логистической модели все еще идентифицируется, но она не полностью характеризует структуру зависимости (и, следовательно, совместного распределения), поскольку она представляет собой смесь между нормальной и логистической случайной величиной , которая не имеет свойство в том, что оно полностью определяется его средним значением и ковариационной матрицей. Принимая во внимание это странное параметрическое допущение для скрытых скрытых переменных, интерпретация случайных эффектов в логистической модели становится менее понятной для интерпретации в целом.
Важным моментом, который не был рассмотрен в предыдущих (превосходных) ответах, является фактический шаг оценки. В полиномиальных логит-моделях имеется PDF-файл, который легко интегрировать, что приводит к замкнутому выражению вероятности выбора. Функция плотности нормального распределения не так легко интегрируется, поэтому пробные модели обычно требуют моделирования. Таким образом, хотя обе модели являются абстракциями реальных ситуаций, logit обычно быстрее использовать для более крупных задач (несколько альтернатив или большие наборы данных).
Для пробных моделей такой удобной формы не существует.
То, что я собираюсь сказать, никоим образом не опровергает сказанного до сих пор. Я просто хочу отметить, что пробитные модели не страдают от предположений IIA (Независимость от несоответствующих альтернатив), и модель логита делает.
Использовать пример из превосходной книги Поезда. Если у меня есть логит, который предсказывает, собираюсь ли я ездить на синем автобусе или ездить на своей машине, добавление красного автобуса будет пропорционально вытягивать и из машины, и из синего автобуса. Но, используя пробитную модель, вы можете избежать этой проблемы. В сущности, вместо того, чтобы рисовать из обоих пропорционально, вы можете рисовать больше из синей шины, поскольку они являются более близкими заменителями.
Жертва, которую вы приносите, заключается в том, что нет решений в замкнутой форме, как указано выше. Пробит имеет тенденцию быть моим переходом, когда я беспокоюсь о проблемах МИС. Это не значит, что нет способов обойти IIA в рамках logit (дистрибутивы GEV). Но я всегда рассматривал такие модели как неуклюжий способ решения проблемы. С вычислительными скоростями, которые вы можете получить, я бы сказал, с пробитом.
Одним из наиболее известных различий между логитом и пробитом является (теоретическое) распределение остатков регрессии: нормальное для пробита, логистическое для логита (см. Koop G. Введение в эконометрику Chichester, Wiley: 2008: 280).
Я предлагаю практический ответ на вопрос, который фокусируется только на том, «когда использовать логистическую регрессию, а когда использовать пробит», не вдаваясь в статистические детали, а скорее на решения, основанные на статистике. Ответ зависит от двух основных вещей: есть ли у вас дисциплинарные предпочтения, и вас интересует только то, какая модель лучше соответствует вашим данным?
Основная разница
Как логит, так и пробитные модели предоставляют статистические модели, которые дают вероятность того, что переменная зависимого отклика будет 0 или 1. Они очень похожи и часто дают практически идентичные результаты, но поскольку они используют разные функции для вычисления вероятностей, их результаты иногда немного разные.
Дисциплинарные предпочтения
Некоторые академические дисциплины обычно предпочитают одну или другую. Если вы собираетесь публиковать или представлять свои результаты в академической дисциплине с особым традиционным предпочтением, то пусть это диктует ваш выбор, чтобы ваши выводы были более приемлемыми. Например (от Methods Consultants ),
Логит - также известный как логистическая регрессия - более популярен в таких областях здравоохранения, как эпидемиология, отчасти потому, что коэффициенты можно интерпретировать с точки зрения отношения шансов. Пробитные модели могут быть обобщены для учета непостоянных дисперсий ошибок в более сложных эконометрических условиях (известных как гетероскедастические пробитные модели) и, следовательно, используются в некоторых контекстах экономистами и политологами.
Дело в том, что различия в результатах настолько незначительны, что способность вашей общей аудитории понять ваши результаты перевешивает незначительные различия между двумя подходами.
Если все, о чем вы заботитесь, лучше подойдет ...
Если ваше исследование относится к дисциплине, которая не предпочитает одно или другое, то мое изучение этого вопроса (что лучше, логит или пробит) привело меня к выводу, что в целом лучше использовать пробит , поскольку он почти всегда будет дать статистическое соответствие данным, которые равны или превосходят данные модели логита. Наиболее заметным исключением, когда модели логита лучше подходят, является случай «крайних независимых переменных» (которые я объясню ниже).
Мой вывод основан почти полностью (после поиска многочисленных других источников) на Hahn, ED & Soyer, R., 2005. Модели Probit и Logit: Различия в многомерной области. Доступно по адресу: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Вот мое краткое изложение выводов практического решения из этой статьи относительно того, обеспечивают ли модели многомерного логита и пробита лучшее соответствие данным (эти выводы также применимы к одномерным моделям, но они моделируют эффекты только для двух независимых переменных):
В большинстве сценариев модели логита и пробита в равной степени соответствуют данным, за исключением следующих двух исключений.
Logit определенно лучше в случае «крайних независимых переменных» . Это независимые переменные, где одно особенно большое или маленькое значение в подавляющем большинстве случаев будет определять, является ли зависимая переменная 0 или 1, перекрывая влияние большинства других переменных. Хан и Сойер формально определяют это так (с. 4):
Чрезвычайно независимый уровень переменной включает в себя три события. Во-первых, экстремальный уровень независимой переменной возникает в верхнем или нижнем экстремуме независимой переменной. Например, скажем, независимая переменная x должна принимать значения 1, 2 и 3.2. Уровень экстремальной независимой переменной будет включать значения при х = 3,2 (или х = 1). Во-вторых, значительная часть (например, 60%) от общего n должна быть на этом уровне. В-третьих, вероятность успеха на этом уровне сама по себе должна быть экстремальной (например, более 99%).
Основываясь на анализе Хана и Сойера, я пришел к выводу, что всегда следует использовать пробитные модели, за исключением случая экстремальных независимых переменных, в этом случае следует выбрать logit . Экстремально независимые переменные не так уж часто встречаются, и их должно быть довольно легко распознать. При использовании этого практического правила не имеет значения, является ли модель моделью случайных эффектов или нет. В тех случаях, когда модель представляет собой модель случайных эффектов (где предпочтительным является пробит), но существуют экстремальные независимые переменные (где предпочтительным является логит), хотя Хан и Сойер не комментировали это, мое впечатление от их статьи состоит в том, что эффект экстремальные независимые переменные являются более доминирующими, и поэтому логит будет предпочтительнее.
Ниже я объясняю оценщик, который вкладывает пробит и логит как особые случаи и где можно проверить, что более уместно.
И пробит, и логит могут быть вложены в модель скрытой переменной,
где наблюдаемый компонент
, и вы можете даже впоследствии проверить правильность нормальности или логистичности (?).
В Klein & Spady, критериальная функция вместо
Они очень похожи.
Или эквивалентно:
:
Дисперсия не важна, поскольку она автоматически компенсируется умножением на константу. Среднее значение также неважно, если вы используете перехват.
добавленным как в линейной регрессии, и мы получаем результат 0/1, говоря:
Различия между логистикой и пробитом заключаются в разнице между логистическим и нормальным распределением. Там не так много. После настройки они выглядят так:
У логистики более тяжелый хвост. Это может немного повлиять на то, как подходят события с малой (<1%) или высокой (> 99%) вероятностью. Практически, в большинстве ситуаций разница даже не заметна: логит и пробит предсказывают одно и то же. Видеть Http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
«Философски», логистическая регрессия может быть оправдана, будучи эквивалентной принципу максимальной энтропии: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -энтропии-модели /
С точки зрения расчета: логистика проще, поскольку совокупное распределение логистического распределения имеет закрытую формулу в отличие от нормального распределения. Но нормальные распределения обладают хорошими свойствами, когда вы переходите в многомерность, поэтому пробит часто предпочтительнее в сложных случаях.