Вопросы с тегом «stratification»

3
Понимание стратифицированной перекрестной проверки
В чем разница между стратифицированной перекрестной проверкой и перекрестной проверкой ? Википедия говорит: При перекрестной проверке по многослойной k-кратности сгибы выбираются таким образом, чтобы среднее значение отклика было примерно одинаковым во всех сгибах. В случае дихотомической классификации это означает, что каждая складка содержит примерно одинаковые пропорции двух типов меток классов. …

2
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?
Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового распределения классов для каждого сгиба будет работать против этого, если вы не уверены, что …

1
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации
Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе, чем случайная выборка? Приложение, для которого я хотел бы использовать стратифицированную выборку …

1
Отличается ли подгонка модели Кокса со стратами и стратово-ковариатным взаимодействием от подгонки двух моделей Кокса?
В « Стратегиях регрессионного моделирования » Харрелла (второе издание) есть раздел (S. 20.1.7), в котором обсуждаются модели Кокса, включая взаимодействие между ковариатой, основное влияние которой на выживаемость мы также хотим оценить (возраст в примере ниже) и ковариация, основной эффект которой мы не хотим оценивать (пол в примере ниже). Конкретно: предположим, …

2
Эмпирическая альтернатива распределения
BOUNTY: Полная награда будет присуждена кому-либо, кто предоставит ссылку на любой опубликованный документ, который использует или упоминает оценку F~F~\tilde{F} ниже. Мотивация: Этот раздел, вероятно, не важен для вас, и я подозреваю, что он не поможет вам получить награду, но, поскольку кто-то спросил о мотивации, вот над чем я работаю. Я …

1
Стратифицированная классификация со случайными лесами (или другой классификатор)
Итак, у меня есть матрица размером около 60 x 1000. Я рассматриваю ее как 60 объектов с 1000 объектов; 60 объектов сгруппированы в 3 класса (a, b, c). 20 предметов в каждом классе, и мы знаем истинную классификацию. Я хотел бы провести обучение под наблюдением на этом наборе из 60 …

2
Выборка с заменой в R randomForest
Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу сделать: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) …

3
Многоуровневая модель против отдельных моделей для каждого уровня
Каковы преимущества и недостатки использования отдельных моделей по сравнению с многоуровневым моделированием? В частности, предположим, что в ходе исследования были изучены пациенты, размещенные в рамках практики врачей, расположенных в разных странах. Каковы преимущества / недостатки использования отдельных моделей для каждой страны по сравнению с трехуровневой вложенной моделью?

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Удалить дубликаты из тренировочного набора для классификации
Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе данных, …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.