Вопросы с тегом «binary-data»

Двоичная переменная принимает одно из двух значений, обычно закодированных как «0» и «1».

10
Измерение энтропии / информации / паттернов двумерной двоичной матрицы
Я хочу измерить энтропию / плотность информации / подобие шаблона двумерной двоичной матрицы. Позвольте мне показать некоторые фотографии для уточнения: Этот дисплей должен иметь довольно высокую энтропию: A) Это должно иметь среднюю энтропию: B) Эти фотографии, наконец, должны иметь почти нулевую энтропию: C) D) E) Есть ли какой-то индекс, который …

6
Бинарная классификация с сильно несбалансированными классами
У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что …

4
Порог вероятности классификации
У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос заключается в том, …


3
Будет ли PCA работать для логических (двоичных) типов данных?
Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с логическими типами данных, и мне было …

1
Выполнение анализа основных компонентов или факторного анализа двоичных данных
У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.

1
Есть ли Факторный анализ или PCA для порядковых или двоичных данных?
Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные. Я хотел бы знать, какие виды анализа будут подходящими и …

2
Как использовать двоичные и непрерывные переменные вместе в кластеризации?
Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это для меня неприемлемо. Вопросов: Так каков статистически / …

5
Стоит ли когда-нибудь стандартизировать бинарные переменные?
У меня есть набор данных с набором функций. Некоторые из них являются двоичными активен или запущен, неактивен или неактивен), а остальные являются действительными, например, .( 1 =(1=(1=4564,3420 =0=0=4564.3424564.3424564.342 Я хочу , чтобы кормить эти данные для алгоритма машинного обучения, так что я -score всех вещественных функций. Я получаю их между …

7
Например, почему пол обычно кодируется 0/1, а не 1/2?
Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода. Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин? Почему эта кодировка считается «стандартной»? Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с этим …

3
Визуализация калибровки прогнозируемой вероятности модели
Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую ​​модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC и область под ней могут использоваться …

3
Генерация случайных коррелированных данных между двоичной и непрерывной переменной
Я хочу создать две переменные. Один из них - двоичная переменная результата (скажем, успех / неудача), а другой - возраст в годах. Я хочу, чтобы возраст был положительно связан с успехом. Например, должно быть больше успехов в более высоких возрастных сегментах, чем в более низких. В идеале я должен быть …

2
Кластеризация двоичной матрицы
У меня есть полумаленькая матрица двоичных объектов размером 250k x 100. Каждая строка является пользователем, а столбцы представляют собой двоичные «теги» некоторого поведения пользователя, например «likes_cats». user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 …

2
Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?
Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:ппp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.