Единственная причина, по которой я могу сразу подумать, требовать этого решения, - это принять решение о включении переменной как непрерывной или категориальной в регрессию.
Во-первых, иногда у вас нет выбора: символьные переменные или факторы (где кто-то, предоставивший data.frame принял решение за вас), явно категоричны.
x1
- 1,52.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Я бы сказал, что переменную, имеющую только 5% уникальных значений, можно смело назвать дискретной (но, как уже упоминалось: это субъективно). Однако: это не делает его хорошим кандидатом для включения его в качестве категориальной переменной в вашей модели: если у вас есть 1000000 наблюдений и 5% уникальных значений, это все равно оставляет 50000 «категорий»: если вы включите это как категориальное, вы ' Я собираюсь потратить много степеней свободы.
Я думаю, что этот вызов еще более субъективен и сильно зависит от размера выборки и метода выбора. Без большего контекста трудно дать руководящие указания здесь.
x
0
1
2
Е[ у] =β0+β11 х1+β12 х2
Иксях = = яЕ[ у] = β0+ β1Икс
Е[ у] =β0+β1Икс1+ 2 β1Икс2
χ2