Статистика и большие данные categorical-data

3

Могу ли я использовать множественную регрессию, когда у меня смешаны категориальные и непрерывные предикторы?

Похоже, вы можете использовать кодирование для одной категориальной переменной, но у меня есть две категориальные и одна непрерывная переменная предиктора. Могу ли я использовать множественную регрессию для этого в SPSS и если да, то как? Благодарность!

12 regression spss categorical-data continuous-data

3

Какие алгоритмы требуют горячего кодирования?

Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие типы алгоритмов требуют, чтобы неупорядоченные категориальные функции были закодированы горячим способом, …

12 machine-learning categorical-data categorical-encoding data-preprocessing

2

Почему R требует много времени для подбора модели с многоуровневым фактором?

Я подхожу к модели с многовариантным множителем, и R требует очень много времени, чтобы соответствовать этой модели. Почему это? Например, если я подгоняю регрессию к прогнозированию зарплат игроков и включаю предиктор факторов для всех национальностей игроков, это займет больше времени, чем подгонка модели для зарплат игроков с непрерывным предиктором, таким …

12 regression categorical-data

2

Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной

Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ... Сначала я объясню вам, с какими данными я работаю ... Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также …

12 correlation matlab ordinal-data categorical-data continuous-data

1

Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал коэффициент Джакарда . Однако что если значения номинального атрибута не равны 2? …

12 distance-functions distance similarities association-measure categorical-data

2

glmnet: как понять многочленовую параметризацию?

Следующая проблема: я хочу предсказать переменную категориального ответа с одной (или более) категориальными переменными, используя glmnet (). Тем не менее, я не могу понять, какой вывод дает мне glmnet. Хорошо, сначала давайте сгенерируем две связанные категориальные переменные: Генерировать данные p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), …

11 categorical-data multinomial glmnet

2

Как найти показатель корреляции между двумя номинальными переменными?

Был проведен опрос, когда люди выбрали то, что они используют, чтобы представить своего смайлика, и въехали в страну происхождения. Я перекодировал текстовые ответы в числовые. Какую форму анализа следует использовать (предпочтительно в SPSS), чтобы проверить уровень корреляции между тем, откуда приходят люди, и представлениями, которые они выбрали?

11 correlation spss categorical-data

2

Регрессия, основанная, например, на днях недели

Мне нужна небольшая помощь, чтобы двигаться в правильном направлении. Прошло много времени с тех пор, как я изучал статистику, и, похоже, жаргон изменился. Представьте, что у меня есть набор данных, связанных с автомобилем, таких как Время в пути от города А до города Б Расстояние от города А до города …

11 regression categorical-data categorical-encoding

2

Коллинеарность между категориальными переменными

Есть много о коллинеарности в отношении непрерывных предикторов, но не так много, что я могу найти в категориальных предикторах. У меня есть данные этого типа, показанные ниже. Первый фактор - это генетическая переменная (количество аллелей), второй фактор - категория заболевания. Ясно, что гены предшествуют заболеванию и являются фактором, демонстрирующим симптомы, …

11 r anova categorical-data multicollinearity sums-of-squares

2

Должен ли я проводить отдельные регрессии для каждого сообщества или сообщество может быть просто управляющей переменной в агрегированной модели?

Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо на уровне 1% (t-оценка -4,52). Сообщество - это …

11 regression categorical-data stata multiple-regression aggregation

2

Быстро оценить (визуально) корреляции между упорядоченными категориальными данными в R?

Я ищу корреляции между ответами на разные вопросы в опросе («хмм, давайте посмотрим, соотносятся ли ответы на вопрос 11 с ответами на вопрос 78»). Все ответы являются категоричными (большинство из них варьируются от «очень несчастных» до «очень счастливых»), но у некоторых есть другой набор ответов. Большинство из них можно считать …

11 r correlation categorical-data data-visualization

6

Как найти сводную статистику для всех уникальных комбинаций факторов в data.frame в R? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я хочу рассчитать сводку переменной в data.frame для каждой уникальной комбинации факторов в data.frame. Должен ли я использовать plyr …

11 r categorical-data aggregation plyr

4

Несколько тестов хи-квадрат

У меня есть перекрестные данные в таблице 2 x 2 x 6. Давайте назовем размеры response, Aи B. Я подгоняю логистическую регрессию к данным с помощью модели response ~ A * B. Анализ отклонения этой модели говорит о том, что оба термина и их взаимодействие являются значительными. Однако, глядя на …

11 categorical-data logistic multiple-comparisons chi-squared

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Как выполнить остаточный анализ для бинарных / дихотомических независимых предикторов в линейной регрессии?

Я выполняю множественную линейную регрессию ниже в R, чтобы предсказать доходность управляемого фонда. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Здесь только GRI и MBA являются бинарными / дихотомическими предикторами; остальные предикторы являются непрерывными. Я использую этот код для генерации остаточных графиков для двоичных переменных. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line …

11 r multiple-regression categorical-data heteroscedasticity residuals

Вопросы с тегом «categorical-data»