Моя ситуация такова:
У меня есть 1 непрерывная зависимая и 1 непрерывная предикторная переменная, которую я логарифмически преобразовал, чтобы нормализовать их остатки для простой линейной регрессии.
Буду признателен за любую помощь в том, как я могу связать эти преобразованные переменные с их исходным контекстом.
Я хочу использовать линейную регрессию, чтобы предсказать количество дней, которые ученики пропустили в школе в 2011 году, исходя из количества дней, которые они пропустили в 2010 году. Большинство учеников пропускают 0 дней или несколько дней, когда данные положительно искажены влево. Следовательно, существует необходимость в преобразовании для использования линейной регрессии.
Я использовал log10 (var + 1) для обеих переменных (я использовал +1 для учеников, которые пропустили 0 дней в школе). Я использую регрессию, потому что я хочу добавить категориальные факторы - пол / этническая принадлежность и т. Д.
Моя проблема:
Аудитория, к которой я хочу обратиться, не поймет log10 (y) = log (постоянная) + log (var2) x (и, честно говоря, я тоже не понимаю).
Мои вопросы:
а) Существуют ли лучшие способы интерпретации преобразованных переменных в регрессии? Т.е. за 1 день, пропущенный в 2010 году, они пропустят 2 дня в 2011 году, в отличие от того, что когда-либо за 1 смену бревна в 2010 году произойдет изменение x бревен в 2011 году?
б) В частности, учитывая приведенный отрывок из этого источника следующим образом:
«Это отрицательная оценка биномиальной регрессии для увеличения единичной оценки по математике на одну единицу, учитывая, что другие переменные в модели остаются постоянными. Если ученик должен был увеличить свою оценку по математике на одно очко, разница в журналах Ожидается, что ожидаемое число уменьшится на 0,0016 единицы, при этом остальные переменные в модели будут постоянными ».
Я бы хотел знать:
- Говорит ли этот отрывок о том, что на каждую единицу увеличения оценки
UNTRANSFORMED
переменной математика приводит к уменьшению на 0,0016 от постоянной (а), поэтому, еслиUNTRANSFORMED
оценка по математике возрастает на два пункта, я вычитаю 0,0016 * 2 из константы а? - Означает ли это, что я получаю среднее геометрическое, используя экспоненциальную (а) и экспоненциальную (а + бета * 2), и что мне нужно вычислить процентную разницу между этими двумя, чтобы сказать, какой эффект имеет переменная (и) предиктора есть на зависимой переменной?
- Или я правильно понял?
Я использую SPSS v20. Извините за создание этого в длинном вопросе.
R
есть пакеты для моделей с нулевым раздуванием; ищите этот сайт .)