Как проверить, являются ли мои данные дискретными или непрерывными?

Мне кажется, что для выбора правильных статистических инструментов я должен сначала определить, является ли мой набор данных дискретным или непрерывным.

Не могли бы вы научить меня, как я могу проверить, являются ли данные дискретными или непрерывными с помощью R?

r continuous-data discrete-data

— evdstat
источник

Вы имеете в виду, нужно ли добавлять определенные переменные как непрерывные или как категориальные (дискретные) предикторы в модели регрессионного типа?

— Ник Сэбб

Как данные были собраны и как были записаны переменные, вероятно, даст вам некоторые подсказки об этом; Кроме того, вероятно, это будет зависеть от того, хотите ли вы моделировать свои данные как непрерывные или дискретные (см., например, вопрос, связанный с элементами Лайкерта и анализом дискретных шкал). Несвязанный момент: было бы хорошо, если бы вы могли зарегистрировать свою учетную запись раз и навсегда и, возможно, рассмотреть вопрос о принятии ответов или пересмотре ваших предыдущих вопросов.

— ЧЛ

выполните qqnorm, и если точки расположены по всей диагонали, данные будут непрерывными (если они расположены в горизонтальных линиях, то они дискретны)

— user222362

Единственная причина, по которой я могу сразу подумать, требовать этого решения, - это принять решение о включении переменной как непрерывной или категориальной в регрессию.

Во-первых, иногда у вас нет выбора: символьные переменные или факторы (где кто-то, предоставивший data.frame принял решение за вас), явно категоричны.

x1 $-1.5$ $2.5$ x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Я бы сказал, что переменную, имеющую только 5% уникальных значений, можно смело назвать дискретной (но, как уже упоминалось: это субъективно). Однако: это не делает его хорошим кандидатом для включения его в качестве категориальной переменной в вашей модели: если у вас есть 1000000 наблюдений и 5% уникальных значений, это все равно оставляет 50000 «категорий»: если вы включите это как категориальное, вы ' Я собираюсь потратить много степеней свободы.

Я думаю, что этот вызов еще более субъективен и сильно зависит от размера выборки и метода выбора. Без большего контекста трудно дать руководящие указания здесь.

x012

Е [Y] знак равно β_{0} + β_{1} 1 {Икс}_{1} + β_{1} 2 {Икс}_{2}

$E[y] = \beta_0 + \beta_11 x_{1} + \beta_12 x_{2}$

x_{i}

$x_i$

x == i

$x==i$

Е [Y] знак равно β_{0} + β_{1} Икс

$E[y] = \beta_0 + \beta_1 x$

Е [Y] знак равно β_{0} + β_{1} {Икс}_{1} + 2 β_{1} {Икс}_{2}

$E[y] = \beta_0 + \beta_1 x_{1} + 2 \beta_1 x_{2}$

$\chi^2$

— Ник Саббе
источник

+1 Хороший пример того, как улучшить странный вопрос с отличным ответом.

На самом деле любой непрерывный процесс может быть дискретизирован, поэтому гистограммы просто показывают, как это делается на практике. Возможно, я перепутал данные подсчета (данные целочисленных значений) с категориями ... хотя мое первое предположение было о дискретных и непрерывных распределениях, а не только точках данных (и сумасшедших исследователях, которые назначают реальные значения категориям), так что ... все равно удалил мои , так как не думаю, что это решает проблему (+1)

— Дмитрий Челов

кажется, что @Dmitrij удалил свой ответ, не могли бы вы еще раз отредактировать свой ответ, чтобы отразить это? Это отличный ответ (+1), так что ссылка на несуществующий контент немного торчит.

— mpiktas