Статистика и большие данные binary-data

10

Измерение энтропии / информации / паттернов двумерной двоичной матрицы

Я хочу измерить энтропию / плотность информации / подобие шаблона двумерной двоичной матрицы. Позвольте мне показать некоторые фотографии для уточнения: Этот дисплей должен иметь довольно высокую энтропию: A) Это должно иметь среднюю энтропию: B) Эти фотографии, наконец, должны иметь почти нулевую энтропию: C) D) E) Есть ли какой-то индекс, который …

53 algorithms binary-data entropy pattern-recognition information

6

Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что …

52 machine-learning classification binary-data unbalanced-classes

4

Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос заключается в том, …

49 machine-learning classification binary-data threshold

3

Имеет ли смысл вычислять корреляцию Пирсона или Спирмена между двумя булевыми векторами?

Есть два булевых вектора, которые содержат только 0 и 1. Если я вычислю корреляцию Пирсона или Спирмена, они значимы или разумны?

42 correlation binary-data pearson-r spearman-rho

3

Будет ли PCA работать для логических (двоичных) типов данных?

Я хочу уменьшить размерность систем более высокого порядка и захватить большую часть ковариации предпочтительно в двухмерном или одномерном поле. Я понимаю, что это можно сделать с помощью анализа основных компонентов, и я использовал PCA во многих сценариях. Однако я никогда не использовал его с логическими типами данных, и мне было …

38 pca data-visualization binary-data dimensionality-reduction correspondence-analysis

1

Выполнение анализа основных компонентов или факторного анализа двоичных данных

У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.

30 spss categorical-data pca factor-analysis binary-data

1

Есть ли Факторный анализ или PCA для порядковых или двоичных данных?

Я выполнил анализ основных компонентов (PCA), исследовательский факторный анализ (EFA) и подтверждающий факторный анализ (CFA), рассматривая данные с использованием шкалы Ликерта (5-уровневые ответы: нет, немного, немного, ...) как непрерывный переменная. Затем, используя Lavaan, я повторил CFA, определяя переменные как категориальные. Я хотел бы знать, какие виды анализа будут подходящими и …

28 pca factor-analysis ordinal-data binary-data likert

2

Как использовать двоичные и непрерывные переменные вместе в кластеризации?

Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это для меня неприемлемо. Вопросов: Так каков статистически / …

27 r clustering binary-data k-means mixed-type-data

5

Стоит ли когда-нибудь стандартизировать бинарные переменные?

У меня есть набор данных с набором функций. Некоторые из них являются двоичными активен или запущен, неактивен или неактивен), а остальные являются действительными, например, .( 1 =(1=(1=4564,3420 =0=0=4564.3424564.3424564.342 Я хочу , чтобы кормить эти данные для алгоритма машинного обучения, так что я -score всех вещественных функций. Я получаю их между …

26 machine-learning normalization binary-data

7

Например, почему пол обычно кодируется 0/1, а не 1/2?

Я понимаю логику кодирования для анализа данных. Мой вопрос ниже касается использования определенного кода. Есть ли причина, по которой пол часто кодируется как 0 для женщин и 1 для мужчин? Почему эта кодировка считается «стандартной»? Сравните это с Женский = 1 и Мужской = 2. Есть ли проблема с этим …

25 data-transformation binary-data categorical-encoding units

3

Визуализация калибровки прогнозируемой вероятности модели

Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC и область под ней могут использоваться …

23 data-visualization classification predictive-models binary-data calibration

3

Генерация случайных коррелированных данных между двоичной и непрерывной переменной

Я хочу создать две переменные. Один из них - двоичная переменная результата (скажем, успех / неудача), а другой - возраст в годах. Я хочу, чтобы возраст был положительно связан с успехом. Например, должно быть больше успехов в более высоких возрастных сегментах, чем в более низких. В идеале я должен быть …

23 correlation random-variable random-generation binary-data

2

Кластеризация двоичной матрицы

У меня есть полумаленькая матрица двоичных объектов размером 250k x 100. Каждая строка является пользователем, а столбцы представляют собой двоичные «теги» некоторого поведения пользователя, например «likes_cats». user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 …

22 r clustering binary-data

2

Коэффициенты подобия для двоичных данных: почему Жаккар предпочел Рассела и Рао?

Из энциклопедии статистических наук я понимаю, что, учитывая дихотомических (двоичных: 1 = присутствующих; 0 = отсутствующих) атрибутов (переменных), мы можем сформировать таблицу сопряженности для любых двух объектов i и j выборки:ппp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- …

20 binary-data similarities association-measure

4

Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Вопросы с тегом «binary-data»