Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

1
Интерпретация выходных данных .L & .Q из отрицательного биномиального GLM с категориальными данными
Я только что запустил отрицательный биномиальный GLM, и это вывод: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 …

3
центрирование и масштабирование фиктивных переменных
У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными переменными». С учетом вышесказанного, будет ли вводить в заблуждение центрирование и масштабирование …

6
Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?
Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не …

2
Как преобразовать порядковые данные из вопросника в надлежащие интервальные данные?
Существуют ли какие-либо простые методы преобразования данных порядкового уровня в интервальный уровень (точно так же, как это делается наоборот)? И выполнимо в Excel или SPSS? Имея данные, скажем: 10 вопросов на порядковом уровне (скажем, шкала 0-5, где 0 = «совсем нет», 5 = «все время»), я хочу преобразовать их, чтобы …

4
Как обобщить категориальные данные?
Я боролся со следующей проблемой, надеюсь, она проста для статистиков (я программист, немного знакомый со статистикой). Мне нужно обобщить ответы на опрос (для руководства). В опросе содержится более 100 вопросов, сгруппированных по разным областям (от 5 до 10 вопросов на область). Все ответы являются категоричными (по порядковой шкале они похожи …

2
Захват сезонности в множественной регрессии для ежедневных данных
У меня есть ежедневные данные о продажах для продукта, который является очень сезонным. Я хочу уловить сезонность в регрессионной модели. Я читал, что если у вас есть квартальные или месячные данные, в этом случае вы можете создать 3 и 11 фиктивных переменных соответственно - но могу ли я иметь дело …

2
Понимание создания фиктивных (ручных или автоматических) переменных в GLM
Если в формуле glm используется факторная переменная (например, пол с уровнями M и F), то создаются фиктивные переменные, которые можно найти в сводке модели glm вместе с соответствующими коэффициентами (например, полM) Если вместо того, чтобы полагаться на R для разделения коэффициента таким образом, коэффициент кодируется в виде последовательности числовых переменных …

2
Лучшие практики для кодирования категориальных функций для деревьев решений?
При кодировании категориальных признаков для линейной регрессии существует правило: количество манекенов должно быть на единицу меньше общего количества уровней (чтобы избежать коллинеарности). Существует ли подобное правило для деревьев решений (в мешках, усиленных)? Я спрашиваю об этом, потому что стандартная практика в Python, по-видимому, заключается в расширении nуровней в nманекены (sklearns …

1
Порядковый логистический регресс в Python
Я хотел бы запустить порядковую логистическую регрессию в Python - для переменной ответа с тремя уровнями и несколькими объяснительными факторами. statsmodelsПакет поддерживает двоичный логит и модель полиномиального логита (MNLogit), но не упорядоченную логит. Поскольку основополагающая математика не так уж отличается, мне интересно, может ли она быть легко реализована с помощью …

3
Оценка максимального правдоподобия совместного распределения с учетом только предельных показателей
Пусть - совместное распределение двух категориальных переменных с . Скажем, из этого распределения было взято выборок, но нам даны только предельные значения, а именно для : X , Y x , y ∈ { 1 , … , K } n j = 1 , … , Kпх , уpx,yp_{x,y}Икс, …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Ягодная инверсия
У меня есть большие совокупные рыночные данные о продажах вина в США, и я хотел бы оценить спрос на некоторые высококачественные вина. Эти доли рынка были в основном получены из случайной полезной модели вида где включает в себя наблюдаемые характеристики продукта, обозначает цены продукта, - ненаблюдаемые характеристики продукта, которые влияют …

3
Применяется ли процедура фиксированных эффектов Мундлака для логистической регрессии с использованием макетов?
У меня есть набор данных с 8000 кластеров и 4 миллиона наблюдений. К сожалению, мое статистическое программное обеспечение, Stata, работает довольно медленно при использовании функции панельных данных для логистической регрессии: xtlogitдаже с 10% -ной выборкой. Однако при использовании непанельной logitфункции результаты появляются гораздо раньше. Поэтому я могу извлечь выгоду из …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Подходящий способ справиться с 3-уровневой таблицей непредвиденных обстоятельств
У меня есть трехуровневая таблица непредвиденных обстоятельств с данными подсчета для нескольких видов, растения-хозяина, из которого они были собраны, и была ли эта коллекция в дождливый день (это действительно имеет значение!) Используя R, поддельные данные могут выглядеть примерно так: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.