Вопросы с тегом «binary-data»

Двоичная переменная принимает одно из двух значений, обычно закодированных как «0» и «1».

1
Как интерпретировать коэффициент второй ступени в регрессии инструментальных переменных с помощью бинарного инструмента и бинарной эндогенной переменной?
(довольно длинный пост, извините. Он включает в себя много дополнительной информации, поэтому не стесняйтесь переходить к вопросу внизу.) Введение: я работаю над проектом, в котором мы пытаемся определить влияние двоичной эндогенной переменной, , на непрерывный результат, . Мы придумали инструмент , который, по нашему убеждению, назначен случайным образом.x1x1x_1yyyz1z1z_1 Данные: сами …

3
Переменная индикатора для двоичных данных: {-1,1} против {0,1}
Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .TTT В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов соответственно.T={1,0}Tзнак равно{1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} Есть ли эмпирическое правило, когда …

1
Моделирование автокоррелированных двоичных временных рядов
Каков обычный подход к моделированию двоичных временных рядов? Есть ли бумага или учебник, где это лечится? Я думаю о бинарном процессе с сильной автокорреляцией. Что-то вроде знака процесса AR (1), начинающегося с нуля. Скажем, Икс0= 0X0=0X_0 = 0 и Икст + 1= β1ИксT+ ϵT,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, …

1
Является ли когда-нибудь хорошей идеей дать «частичный кредит» (непрерывный результат) в обучении логистической регрессии?
Я тренирую логистическую регрессию, чтобы предсказать, какие бегуны, скорее всего, закончат изнурительную гонку на выносливость. Очень немногие бегуны заканчивают эту гонку, поэтому у меня серьезный дисбаланс классов и небольшой пример успеха (возможно, несколько десятков). Я чувствую, что могу получить хороший «сигнал» от десятков бегунов, которые почти сделали это. (Мои тренировочные …

1
Каковы опасности расчета корреляций Пирсона (вместо тетрахорических) для бинарных переменных в факторном анализе?
Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание кубиков») ) и рейтинги игроков этих игр (т. е. оценки …

3
Как визуализировать байесовскую доброту, пригодную для логистической регрессии
Для задачи байесовской логистической регрессии я создал апостериорное предиктивное распределение. Я выбираю из прогнозирующего распределения и получаю тысячи выборок (0,1) для каждого наблюдения, которое у меня есть. Визуализация пригодности менее интересна, например: На этом графике показаны 10 000 образцов + наблюдаемая исходная точка (слева можно разглядеть красную линию: да, это …

2
Рекомендуемая процедура для факторного анализа на дихотомических данных с R
Мне нужно провести факторный анализ набора данных, состоящего из дихотомических переменных (0 = да, 1 = нет), и я не знаю, нахожусь ли я на правильном пути. Используя tetrachoric()я создаю корреляционную матрицу, по которой я бегу fa(data,factors=1). Результат довольно близок к результатам, которые я получаю при использовании MixFactor , но …

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
Для задачи классификации, если переменная класса имеет неравномерное распределение, какой метод мы должны использовать?
например если у меня есть переменная кредитного скоринга класса с двумя классами хороший и плохой, где # (хорошо) = 700 и # (плохо) = 300. Я не хочу сокращать свои данные. какую технику я должен использовать? Я использовал SVM, но он дает плохие прогнозы.

4
Как мне подойти к этой проблеме бинарного предсказания?
У меня есть набор данных в следующем формате. Есть бинарный исход рак / нет рака. Каждый врач в наборе данных осмотрел каждого пациента и дал независимое суждение о том, есть ли у пациента рак или нет. Затем врачи дают из 5 уровень уверенности в том, что их диагноз верен, а …

5
Как измерить производительность классификатора, когда почти 100% меток класса принадлежат одному классу?
В моих данных, у меня есть переменная класса, обозначенная как . Значения переменных этого класса: (двоичные). Почти все наблюдения равны 0 (близко к 100%, точнее 97%). Я хотел бы провести тест производительности на разных классификационных моделях (это может быть точность). Чего я боюсь, так это того, что если у меня …

3
Расчет Jaccard или другого коэффициента ассоциации для двоичных данных с использованием умножения матриц
Я хочу знать, есть ли какой-нибудь возможный способ для вычисления коэффициента Жакара с использованием умножения матриц. Я использовал этот код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | …

2
Рассчитать кривую ROC для данных
Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.