центрирование и масштабирование фиктивных переменных

13

У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными переменными».

С учетом вышесказанного, будет ли вводить в заблуждение центрирование и масштабирование всего набора данных с новыми переменными? Кажется, что я бы потерял значение «вкл / выкл» переменных.

Если это вводит в заблуждение, означает ли это, что я должен центрировать и масштабировать непрерывные переменные отдельно, а затем повторно добавить его в мой набор данных?

ТИА.

categorical-data data-transformation centering

— user2300643
источник

1

Приемлемо или целесообразно центрировать и / или масштабировать фиктивные переменные, зависит от приложения, от анализа, который вы планируете, и от конкретных задач. Так что нет единого правильного ответа. В общем, грубая формулировка, часто нормально делать это с фиктивными переменными предиктора; это часто плохая идея с фиктивными переменными ответа или с помощью многомерных методов, таких как кластеризация или факторный анализ.

— ttnphns

13

При построении фиктивных переменных для использования в регрессионном анализе каждая категория в категориальной переменной, кроме одной, должна получить двоичную переменную. Таким образом, вы должны иметь, например, A_level2, A_level3 и т. Д. Одна из категорий не должна иметь двоичную переменную, и эта категория будет служить справочной категорией. Если вы не пропустите ни одну из категорий, ваш регрессионный анализ не будет работать должным образом.

Если вы используете SPSS или R, я не думаю, что масштабирование и центрирование всего набора данных, как правило, будут проблемой, поскольку эти программные пакеты часто интерпретируют переменные только с двумя уровнями как факторы, но это может зависеть от конкретных используемых статистических методов. , В любом случае, нет смысла масштабировать и центрировать двоичные (или категориальные) переменные, поэтому вам следует только центрировать и масштабировать непрерывные переменные, если вы должны это сделать.

— JonB
источник

2

Мое сильное чувство состоит в том, что единственная часть ответа, которая действительно отвечает на вопрос ОП, - это последнее предложение - эта часть является необъяснимой. Вы говорите, не масштабируйте их, но не объясняйте почему. Между тем тема не очень простая.

— ttnphns

Это только один из способов кодирования категориальных переменных. У меня нет времени, чтобы написать полный ответ, но поиск по «контрастам» может помочь. Соответствующий ответ stats.stackexchange.com/questions/60817/...

— user20637

3

Если вы используете R и масштабируете фиктивные переменные или переменные, имеющие 0 или 1, по шкале только от 0 до 1, тогда значения этих переменных не будут изменены, остальные столбцы будут масштабированы.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

— Шехар саху
источник

Интересный совет. Спасибо, что поделились. Прошло немного времени с тех пор, как я спросил, но приятно видеть, что я все еще могу учиться на этих старых постах.

— user2300643

3

Смысл центрирования в регрессии состоит в том, чтобы сделать перехват более интерпретируемым. То есть, если вы подразумеваете, что центрируете все переменные в вашей регрессионной модели, то пересечение (называемое константой в выходных данных SPSS) равно общему среднему значению для вашей выходной переменной. Что может быть удобно при интерпретации окончательной модели.

Что касается центрирования фиктивных переменных, я только что разговаривал с моим профессором о том, как центрировать фиктивные переменные в регрессионной модели (в моем случае это многоуровневая модель с рандомизированным блочным дизайном с 3 уровнями), и мой вывод о том, что это означает центрирование фиктивные переменные фактически не изменяют интерпретацию коэффициентов регрессии (за исключением того, что решение полностью стандартизировано). Обычно в регрессии нет необходимости интерпретировать фактическое среднее значение по центру на уровне единицы - только коэффициенты. И это по существу не меняется - по большей части. Она сказала, что она немного меняется, потому что она стандартизирована, что для чайников не так интуитивно понятно.

Предостережение: это было мое понимание, когда я покинул кабинет своего профессора. Я мог, конечно, ошибиться.

— Кэти
источник