Уабер сказал вам в комментариях, что кодирование 0-3 или 1-4 вместо создания фиктивных переменных - это не то, что вам нужно. Это попытка - я надеюсь объяснить, что вы будете делать с этой моделью и почему это неправильно.
Если вы закодируете переменную X так, что если A, то X = 1, если B, то X = 2, если C, то X = 3, если D, то X = 4, тогда, когда вы выполните регрессию, вы получите только один параметр. Допустим, в итоге оказалось, что предполагаемый параметр, связанный с X, равен 2. Это говорит о том, что ожидаемая разница между средним значением B и средним значением A равна 2. Это также говорит о том, что ожидаемая разница между средним значением C и среднее значение B равно 2. Некоторые для D и C. Вы бы заставили различия в средствах для этих групп следовать этой очень строгой схеме. Этот один параметр говорит вам точно, как все средства вашей группы связаны друг с другом.
Поэтому, если вы выполняете этот вид кодирования, вам нужно будет предположить, что вы не только правильно поняли порядок (потому что в этом случае, если вы ожидаете увеличения от A до B, вам нужно ожидать увеличения от B до C и от C на D) но вы также должны предположить, что эта разница та же!
Если вместо этого вы делаете фиктивное кодирование, которое было предложено, вы позволяете каждой группе иметь свое собственное значение - никаких ограничений. Эта модель гораздо разумнее и отвечает на вопросы, которые вы хотите.