Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

3
Проблемы с горячим кодированием и фиктивным кодированием
Мне известен тот факт, что категориальные переменные с k уровнями должны кодироваться с помощью k-1 переменных в фиктивном кодировании (аналогично для многозначных категориальных переменных). Мне было интересно, сколько проблем делает одноразовое кодирование (то есть использование вместо этого k переменных) вместо фиктивного кодирования для различных методов регрессии, в основном, линейной регрессии, …

5
Почему следует избегать биннинга любой ценой?
Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными. Тем не менее, в …

1
Каковы опасности расчета корреляций Пирсона (вместо тетрахорических) для бинарных переменных в факторном анализе?
Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание кубиков») ) и рейтинги игроков этих игр (т. е. оценки …

3
Зачем делать преобразование WOE категориальных предикторов в логистической регрессии?
Когда полезно преобразование весовых доказательств (WOE) категориальных переменных? Пример можно увидеть в трансформации WOE (Таким образом, для ответа , & категорического предиктора с категориями & из испытаний в й категории этого предиктора, WOE для й категории определяется какk y j n j j jYYyККkYJYJy_jNJNJn_jJJjJJj журналYJΣКJYJΣКJ( нJ- уJ)NJ- уJжурнал⁡YJΣJКYJΣJК(NJ-YJ)NJ-YJ\log \frac{y_j} {\sum_j^k …

4
Как называется эта диаграмма?
Может кто-нибудь сказать мне, как называется этот тип диаграммы (если есть)? Также кто-нибудь может предложить какие-нибудь инструменты, пусть и простые, для построения такой диаграммы?

2
Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?
Так, например, вот определения, которые я получаю из стандартных учебников Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест Данные - фактические наблюдаемые значения Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими наблюдаемыми значениями {dave | 100K}, {Джим | …

1
Как интерпретировать тест Кохрана-Мантеля-Хензеля?
Я проверяю независимость двух переменных, A и B, стратифицированных по C. A и B являются двоичными переменными, а C является категориальным (5 значений). Выполняя точный тест Фишера для A и B (все слои объединены), я получаю: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 …

1
Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?
Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою модель, чтобы я мог использовать его для целей …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Полиномиальная модель Дирихле с гиперприорным распределением по параметрам концентрации
Я постараюсь описать имеющуюся проблему как можно более общей. Я моделирую наблюдения как категориальное распределение с вектором вероятности параметра тета. Затем я предполагаю, что вектор параметров тета следует предварительному распределению Дирихле с параметрами .α1,α2,…,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k Можно ли также наложить гиперприорное распределение по параметрам ? Должно ли это быть многомерное распределение, такое …

2
Является ли мультиколлинеарность неявной в категориальных переменных?
Я заметил, что во время работы с моделью многомерной регрессии наблюдался небольшой, но заметный эффект мультиколлинеарности, измеряемый коэффициентами инфляции дисперсии, в категориях категориальной переменной (конечно, после исключения эталонной категории). Например, скажем, у нас есть набор данных с непрерывной переменной y и одной номинальной категориальной переменной x, которая имеет k возможных …

2
Корреляция между дихотомической и непрерывной переменной
Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной. Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным. Я выполнил тест Колмогорова-Смирнова для проверки нормальности и обнаружил, что непрерывная переменная является …

3
Как работать с недвоичными категориальными переменными в логистической регрессии (SPSS)
Я должен сделать бинарную логистическую регрессию с большим количеством независимых переменных. Большинство из них являются двоичными, но некоторые из категориальных переменных имеют более двух уровней. Как лучше всего справиться с такими переменными? Например, для переменной с тремя возможными значениями я предполагаю, что необходимо создать две фиктивные переменные. Затем, в пошаговой …

2
Можно ли напрямую читать столбцы CSV как категориальные данные?
Мне нужно проанализировать с помощью R данные медицинского обследования (с более 100 кодированными столбцами), которое приходит в CSV. Я буду использовать погремушку для некоторого начального анализа, но за кадром это все еще R. Если я читаю файл .csv () , столбцы с числовыми кодами рассматриваются как числовые данные. Я знаю, …

4
Как статистически доказать, имеет ли столбец категориальные данные или не использует Python
У меня есть фрейм данных в Python, где мне нужно найти все категориальные переменные. Проверка типа столбца не всегда работает, потому что intтип также может быть категоричным. Поэтому я ищу помощь в поиске правильного метода проверки гипотез, чтобы определить, является ли столбец категоричным или нет. Я пробовал ниже критерия хи-квадрат, …

1
Методы наказания за категориальные данные: объединение уровней в фактор
Наказанные модели могут использоваться для оценки моделей, в которых количество параметров равно или даже превышает размер выборки. Такая ситуация может возникнуть в лог-линейных моделях больших разреженных таблиц категориальных данных или данных подсчета. В этих настройках часто также желательно или полезно сворачивать таблицы, комбинируя уровни фактора, где эти уровни не различимы …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.