Я думаю о проблеме, которая заключается в прогнозировании журнала (расходов) клиента с использованием линейной регрессии.
Я рассматриваю, какие функции использовать в качестве входных данных, и задаюсь вопросом, будет ли нормально использовать процентиль переменной в качестве входных данных.
Например, я мог бы использовать доход компаний в качестве входных данных. Мне интересно, могу ли я использовать вместо этого процентиль дохода компании.
Другим примером может служить категориальный отраслевой классификатор (NAICS) - если бы я посмотрел на срединные расходы по коду NAICS, а затем назначил каждый код NAICS для «процентили NAICS», это была бы допустимая пояснительная переменная, которую я мог бы использовать?
Просто интересно, есть ли какие-либо проблемы, о которых нужно знать при использовании процентилей? Это в некотором смысле эквивалентно типу масштабирования объектов?