Статистика и большие данные association-measure

3

Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Как мне проверить нелинейную связь?

Для графика 1 я могу проверить связь между x и y, выполнив простую корреляцию. Для графика 2, где взаимосвязь нелинейная, но существует четкая связь между x и y, как я могу проверить связь и обозначить ее природу?

37 nonlinear-regression non-independent association-measure

1

Как визуализировать огромную разреженную таблицу непредвиденных обстоятельств?

У меня есть две переменные: название лекарственного средства (DN) и соответствующие нежелательные явления (AE), которые находятся в отношении многих ко многим. Есть 33 556 наименований лекарств и 9 516 побочных эффектов. Размер выборки составляет около 5,8 миллиона наблюдений. Я хочу изучить и понять связь / отношения между DN и AE. …

24 r categorical-data data-visualization large-data association-measure

2

Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?

Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:ппp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- …

20 binary-data similarities association-measure

5

Как мне изучить «корреляцию» между непрерывной переменной и категориальной переменной?

Что такое значимая «корреляционная» мера для изучения взаимосвязи между такими двумя типами переменных? В R как это сделать?

19 r correlation categorical-data association-measure

1

Какова правильная мера связи переменной с компонентом PCA (на биплоте / графике загрузки)?

Я использую, FactoMineRчтобы свести мой набор данных измерений к скрытым переменным. Карта переменная выше ясно для меня , чтобы интерпретировать, но я смущен , когда речь идет о связях между переменными и компонента 1. Посмотрев на переменной карте, ddpи covочень близко к компоненту в карте, и ddpAbsнемного дальше прочь. Но …

17 correlation pca factor-analysis association-measure biplot

2

Применимость критерия хи-квадрат, если многие ячейки имеют частоты менее 5

Чтобы найти связь между поддержкой сверстников (независимая переменная) и удовлетворенностью работой (зависимая переменная), я хочу применить критерий хи-квадрат. Поддержка сверстников - это категории в четырех группах в зависимости от степени поддержки: 1 = очень меньшая степень, 2 = в некоторой степени, 3 = в значительной степени и 4 = в …

13 chi-squared nonparametric contingency-tables association-measure

2

Непараметрическая мера силы ассоциации между порядковым и непрерывным случайным числом

Я бросаю здесь проблему, как я получил это. У меня есть две случайные величины. Один из которых является непрерывным (Y), а другой - дискретным и будет обозначаться как ординал (X). Я поместил ниже график, который я получил вместе с запросом. Человек, который посылает мне данные, хочет измерить силу связи между …

12 correlation nonparametric ordinal-data association-measure

1

Какова оптимальная функция расстояния для людей, когда атрибуты являются номинальными?

Я не знаю, какую функцию расстояния между людьми использовать в случае номинальных (неупорядоченных категориальных) атрибутов. Я читал какой-то учебник, и они предлагают функцию простого сопоставления, но некоторые книги предлагают, чтобы я изменил номинальные на двоичные атрибуты и использовал коэффициент Джакарда . Однако что если значения номинального атрибута не равны 2? …

12 distance-functions distance similarities association-measure categorical-data

3

Какие статистические методы я могу использовать, чтобы найти популярные или распространенные комбинации категориальных переменных?

Я делаю исследование по употреблению поликарбоната. У меня есть данные о 400 наркоманах, каждый из которых указал наркотики, которыми злоупотребляет. Существует более 10 лекарств и, следовательно, есть большие возможные комбинации. Я перекодировал большинство наркотиков, которые они потребляют, в двоичные переменные (т. Е. Героин равен 1, если наркоман злоупотребляет героином, иначе …

10 hypothesis-testing clustering combinatorics association-measure association-rules

2

Корреляция между дихотомической и непрерывной переменной

Я пытаюсь найти корреляцию между дихотомической и непрерывной переменной. Исходя из моей основной работы по этому вопросу, я обнаружил, что должен использовать независимый t-критерий, и предварительным условием для этого является то, что распределение переменной должно быть нормальным. Я выполнил тест Колмогорова-Смирнова для проверки нормальности и обнаружил, что непрерывная переменная является …

10 normal-distribution categorical-data continuous-data kolmogorov-smirnov association-measure

13

Если «B более вероятно дано A», то «A более вероятно дано B»

Я пытаюсь получить более ясную интуицию: «Если AAA делает BBB более вероятным, то BBB делает AAA более вероятным», т.е. Пусть n(S)n(S)n(S) обозначает размер пространства, в котором находятся AAA и BBB , тогда Утверждение: P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B) поэтому n(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) поэтому n(AB)/n(B)>n(A)/n(S)N(AВ)/N(В)>N(A)/N(S)n(AB)/n(B) > n(A)/n(S) который является P(A|B)>P(A)п(A|В)>п(A)P(A|B)>P(A) Я понимаю математику, но почему …

9 probability inference conditional-probability intuition association-measure

3

Расчет Jaccard или другого коэффициента ассоциации для двоичных данных с использованием умножения матриц

Я хочу знать, есть ли какой-нибудь возможный способ для вычисления коэффициента Жакара с использованием умножения матриц. Я использовал этот код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | …

9 r matrix binary-data association-measure similarities

2

Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей

Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

Вопросы с тегом «association-measure»