Вопросы с тегом «binary-data»

Двоичная переменная принимает одно из двух значений, обычно закодированных как «0» и «1».

1
Какова интуиция за сменными образцами при нулевой гипотезе?
Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
Как сделать одноклассную классификацию текста?
Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная веб-страница принадлежит либо к классу " Позитив", либо к …

1
Ищем шаг на примере факторного анализа дихотомических данных (бинарных переменных) с использованием R
У меня есть некоторые дихотомические данные, только двоичные переменные, и мой начальник попросил меня выполнить факторный анализ с использованием матрицы тетрахорических корреляций. Ранее я был в состоянии научить себя, как проводить различные анализы, основываясь на примерах здесь и на сайте статистики UCLA и других подобных сайтах, но я не могу …

1
Дисперсионное распределение и продольные изменения в корреляции с двоичными данными
Я анализирую данные о 300 000 учеников в 175 школах с помощью логистической линейной модели смешанных эффектов (случайные перехваты). Каждый ученик встречается ровно один раз, а данные охватывают 6 лет. Как разделить разницу между уровнями школы и ученика, аналогично VPC / ICC для непрерывных результатов? Я видел эту статью, в …


2
Существует ли пакет R для продольных двоичных откликов с непрерывным временем?
bildПакет , кажется, превосходный пакет для последовательных бинарных ответов. Но это на дискретное время. Я хотел бы указать плавную функцию времени для связи отношения шансов текущего отклика Y с двоичными откликами, измеренными в более ранние времена, или, по крайней мере, марковской версией первого порядка этого. Я считаю, что это называется …

1
LARS против координатного спуска для лассо
Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

2
Как выбрать оптимальную ширину бункера при калибровке вероятностных моделей?
Предпосылки: Здесь есть несколько замечательных вопросов / ответов о том, как калибровать модели, которые предсказывают вероятности того или иного исхода. Например Оценка Бриера и ее разложение на разрешение, неопределенность и надежность . Калибровочные графики и изотоническая регрессия . Эти методы часто требуют использования метода биннинга для прогнозируемых вероятностей, так что …

4
Прогнозирование двоичных временных рядов
У меня есть двоичный временной ряд с 1, когда автомобиль не движется, и 0, когда автомобиль движется. Я хочу сделать прогноз на период до 36 часов вперед и на каждый час. Мой первый подход состоял в том, чтобы использовать наивный байесовский метод, используя следующие входные данные: t-24 (ежедневный сезон), t-48 …

2
оптимизация auc против logloss в задачах двоичной классификации
Я выполняю задачу бинарной классификации, где вероятность исхода довольно низкая (около 3%). Я пытаюсь решить, следует ли оптимизировать AUC или потерю журнала. Насколько я понял, AUC максимизирует способность модели различать классы, в то время как потери в журнале штрафуют расхождение между фактической и оценочной вероятностями. В моей задаче крайне важно …

2
Пробит двухступенчатых наименьших квадратов (2SLS)
Мне сказали, что можно провести двухэтапную IV регрессию, где первая стадия - это пробит, а вторая стадия - МНК. Можно ли использовать 2SLS, если первая стадия является пробитом, а вторая - моделью пробита / пуассона?

3
Как я могу проверить, насколько важна моя кластеризация двоичных данных?
Я делаю анализ корзины покупок, мой набор данных - это набор векторов транзакций с товарами, которые покупаются. Применяя к транзакциям k-means, я всегда получаю некоторый результат. Случайная матрица, вероятно, также показала бы некоторые кластеры. Есть ли способ проверить, является ли кластеризация, которую я нахожу, значительной, или это может быть очень …

4
Логистическая регрессия и точка перегиба
У нас есть данные с двоичным результатом и некоторыми ковариатами. Я использовал логистическую регрессию для моделирования данных. Просто простой анализ, ничего необычного. Предполагается, что конечным результатом будет кривая доза-эффект, где мы показываем, как изменяется вероятность для конкретного ковариата. Что-то вроде этого: Мы получили некоторую критику от внутреннего рецензента (не чисто …

1
R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?
mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?
У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.