Проще говоря, потому что один уровень вашей категориальной функции (здесь местоположение) становится контрольной группой во время фиктивного кодирования для регрессии и является избыточным. Я цитирую здесь форму: «Категориальная переменная из K категорий или уровней, как правило, входит в регрессию как последовательность фиктивных переменных K-1. Это равносильно линейной гипотезе на уровне средних».
Это уже обсуждалось в этом очень хорошем ответе stats.stackexchange .
Мне сказали, что в Coursera есть продвинутый курс от Яндекса, который более подробно освещает эту тему, если у вас все еще есть сомнения, см. Здесь . Обратите внимание, что вы всегда можете бесплатно проверить содержание курса. ;-)
Еще один хороший пост, если вы хотите подробное объяснение с множеством примеров со статистической точки зрения и не ограничиваясь только фиктивным кодированием, посмотрите это из UCLA (в R)
Обратите внимание, что если вы используете pandas.get_dummies
, есть параметр, т. drop_first
Е. Чтобы получить k-1 манекенов из k категориальных уровней, удалив первый уровень. Пожалуйста default = False
, обратите внимание , это означает, что ссылка не отбрасывается и k манекенов создано из k категориальных уровней!