Использование процентилей в качестве предикторов - хорошая идея?


9

Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии.

Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных.

Например, я мог бы использовать доход компаний в качестве входных данных. Мне интересно, могу ли я использовать вместо этого процентиль дохода компании.

Другим примером может служить категориальный отраслевой классификатор (NAICS) - если бы я посмотрел на срединные расходы по коду NAICS, а затем назначил каждый код NAICS для «процентили NAICS», это была бы допустимая пояснительная переменная, которую я мог бы использовать?

Просто интересно, есть ли какие-либо проблемы, о которых нужно знать при использовании процентилей? Это в некотором смысле эквивалентно типу масштабирования объектов?


2
Если у вас есть исходные данные, почему вы хотите использовать процентили? Может быть, это не очень хорошая идея, потому что процентили являются только порядковыми, а не метрическими показателями. Но я не уверен в предвзятости / эффективности.
hplieninger

9
XX

1
если вы можете разумно сгруппировать свою отраслевую переменную в группы, например 4, использовать фиктивное кодирование (или любую другую подходящую схему кодирования), и все готово. Вот так я бы это сделал.
hplieninger

3
Я не могу придумать причину, по которой процентиль будет линейно связан с зависимой переменной. Если вы можете подумать об одном, то это может быть хорошо (и, пожалуйста, обновите ваш вопрос с указанием причины)
Питер Флом

1
Если вы хотите использовать код NAICS в качестве прокси для расходов компании, то вы можете сделать это, используя средние затраты в коде NAICS - не нужно использовать процентили.
Scortchi - Восстановить Монику

Ответы:


1

Если ваша модель влечет за собой какую-то конкуренцию в доходах фирмы, вы можете использовать процентиль. Лог-процентиль кажется более значимым, квантили не будут линейными по значению, или я так себе представляю.

В этой истории вы включаете ln (%) фирм с доходами под наблюдением фирмы. Дело в том, что при высоких доходах репутация лучше, чем у компаний с низким доходом, и это отношение «иметь больше, чем конкуренция» имеет значение, а не сам уровень дохода. Я мог видеть это как важную часть фирменного признания и брендинга.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.