Q: «... как мне интерпретировать значение x2 как« высокое »? Например, как влияет« x2s »на переменную ответа в приведенном здесь примере?
A: Вы без сомнения заметили, что в выводе нет упоминания о x2 = "High". На данный момент x2High выбран в качестве «базового варианта». Это потому, что вы предложили факторную переменную с кодировкой по умолчанию для уровней, несмотря на порядок, который был бы более естественным для человеческого разума L / M / H. Но «H», будучи лексически перед буквами «L» и «M» в алфавите, было выбрано R в качестве базового варианта.
Поскольку «x2» не был упорядочен, каждый из представленных контрастов относился к x2 = «High», поэтому x2 == «Low» оценивалось в -0,78 относительно x2 = «High». В данный момент Intercept является оценочным значением «Y», когда x2 = «High» и x1 = 0. Возможно, вы захотите повторно запустить регрессию после изменения порядка уровней (но не упорядочения коэффициента).
x2a = factor(x2, levels=c("Low", "Medium", "High"))
Тогда ваши оценки «Средний» и «Высокий» будут в большей степени соответствовать вашим ожиданиям.
Изменить: Есть альтернативные устройства кодирования (или более точно расположение модельной матрицы.) Выбор по умолчанию для контрастов в R является «лечение контрасты», которое задает один уровень фактора (или одну конкретной комбинацию уровней факторов) в качестве опорного уровня и отчетов расчетные средние различия для других уровней или комбинаций. Однако вы можете иметь опорный уровень в качестве общего среднего значения, установив значение «Перехват» равным 0 (не рекомендуется) или воспользовавшись одним из других вариантов контрастности:
?contrasts
?C # which also means you should _not_ use either "c" or "C" as variable names.
Вы можете выбирать разные контрасты для разных факторов, хотя это может создать дополнительное бремя интерпретации. S-Plus по умолчанию использует контрасты Хельмерта, а SAS использует контрасты лечения, но выбирает последний уровень фактора, а не первый, в качестве контрольного уровня.