Вопросы с тегом «synthetic-data»

2
Каковы некоторые стандартные практики для создания синтетических наборов данных?
В качестве контекста: при работе с очень большим набором данных меня иногда спрашивают, можем ли мы создать синтетический набор данных, в котором мы «знаем» отношения между предикторами и переменной ответа или отношения между предикторами. На протяжении многих лет я, кажется, сталкивался либо с одноразовыми синтетическими наборами данных, которые выглядят так, …

10
Лучший термин для выдуманных данных?
Я пишу пример и составил некоторые данные. Я хочу, чтобы читателю было ясно, что это не реальные данные, но я также не хочу создавать впечатление злого умысла, поскольку он служит только примером. В этих конкретных данных нет (псевдослучайной) компоненты, поэтому мне кажется, что «имитация» не подходит. Если я называю это …

1
Создание несбалансированного набора данных
Я хотел бы проверить мою обученную модель на несбалансированном наборе данных. Есть ли какие-либо алгоритмы для генерации синтетических данных из сбалансированного помеченного набора данных (спам / не спам)?

1
Почему Anova () и drop1 () предоставили разные ответы для GLMM?
У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.