Полное раскрытие: это домашнее задание. Я включил ссылку на набор данных ( http://www.bertelsen.ca/R/logistic-regression.sav )
Моя цель - максимально повысить прогноз неплательщиков кредитов в этом наборе данных.
Каждая модель, которую я придумала до сих пор, предсказывает> 90% неплательщиков, но <40% неплательщиков, в целом эффективность классификации составляет ~ 80%. Итак, мне интересно, есть ли эффекты взаимодействия между переменными? В рамках логистической регрессии, кроме тестирования каждой возможной комбинации, есть ли способ определить потенциальные эффекты взаимодействия? Или, альтернативно, способ повысить эффективность классификации неплательщиков.
Я застрял, любые рекомендации будут полезны при выборе слов, R-кода или синтаксиса SPSS.
Мои основные переменные описаны на следующей гистограмме и диаграмме рассеяния (за исключением дихотомической переменной)
Описание основных переменных:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Дополнительные переменные являются просто преобразованиями вышеупомянутого. Я также попытался преобразовать несколько непрерывных переменных в категориальные переменные и внедрить их в модель, но не повезло.
Если вы хотите быстро вставить его в R, вот оно:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)