Вопросы с тегом «mixed-type-data»

Набор данных, включающий переменные различной природы измерения (например, непрерывные, категориальные, двоичные, счетные и т. Д.), Анализируемые вместе в одном наборе переменных. Используйте этот тег, когда это представляет проблему для анализа. НЕ используйте для обозначения [смешанная модель].

6
Можно ли применять анализ главных компонентов к наборам данных, содержащим сочетание непрерывных и категориальных переменных?
У меня есть набор данных, который содержит как непрерывные, так и категориальные данные. Я анализирую с помощью PCA и задаюсь вопросом, можно ли включать категориальные переменные в качестве части анализа. Насколько я понимаю, PCA может применяться только к непрерывным переменным. Это правильно? Если его нельзя использовать для категориальных данных, какие …

6
Корреляции с неупорядоченными категориальными переменными
У меня есть датафрейм со многими наблюдениями и многими переменными. Некоторые из них являются категориальными (неупорядоченными), а другие числовыми. Я ищу ассоциации между этими переменными. Я был в состоянии вычислить корреляцию для числовых переменных (корреляция Спирмена), но: Я не знаю, как измерить корреляцию между неупорядоченными категориальными переменными. Я не знаю, …

2
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?
В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?

2
Как использовать двоичные и непрерывные переменные вместе в кластеризации?
Мне нужно использовать двоичные переменные (значения 0 и 1) в k-средних. Но k-means работает только с непрерывными переменными. Я знаю, что некоторые люди все еще используют эти двоичные переменные в k-средних, игнорируя тот факт, что k-средние предназначены только для непрерывных переменных. Это для меня неприемлемо. Вопросов: Так каков статистически / …

4
Почему смешанные данные являются проблемой для евклидовых алгоритмов кластеризации?
Большинство классических алгоритмов кластеризации и уменьшения размерности (иерархическая кластеризация, анализ главных компонентов, k-средних, самоорганизующиеся карты ...) разработаны специально для числовых данных, а их входные данные рассматриваются как точки в евклидовом пространстве. Это, конечно, проблема, поскольку многие вопросы реального мира включают в себя данные, которые смешаны: например, если мы изучаем автобусы, …

8
Кластеризация данных смешанного типа с помощью R
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Интересно, можно ли в R выполнить кластеризацию данных, имеющих смешанные переменные данных? Другими словами, у меня есть набор данных, содержащий как числовые, …

1
Можно ли смешивать категориальные и непрерывные данные для SVM (Машины опорных векторов)?
У меня есть набор данных, как +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 …

2
Как расстояние Гауэра вычисляет разницу между двоичными переменными?
У меня есть 17 числовых и 5 двоичных (0-1) переменных, с 73 выборками в моем наборе данных. Мне нужно запустить кластерный анализ. Я знаю, что расстояние Гауэра является хорошим показателем для наборов данных со смешанными переменными. Однако я не мог понять, как расстояние Гауэра рассчитывает разницу между двоичными переменными . …

1
Робастный кластерный метод для смешанных данных в R
Я рассчитываю на кластеризацию небольшого набора данных (64 наблюдения 4-х интервальных переменных и одной трехфакторной категориальной переменной). Теперь я довольно новичок в кластерном анализе, но я знаю, что был значительный прогресс со времен, когда иерархическая кластеризация или k-средних были единственными доступными вариантами. В частности, кажется, что доступны новые методы кластеризации …

1
t-SNE со смешанными непрерывными и двоичными переменными
В настоящее время я изучаю визуализацию многомерных данных с использованием t-SNE. У меня есть некоторые данные со смешанными двоичными и непрерывными переменными, и данные, похоже, слишком быстро группируют двоичные данные. Конечно, это ожидается для масштабированных (между 0 и 1) данных: евклидово расстояние всегда будет наибольшим / наименьшим между двоичными переменными. …

1
Дискретные данные и альтернативы PCA
У меня есть набор данных с дискретными (порядковыми, меристическими и номинальными) переменными, описывающими морфологические признаки крыла нескольких близкородственных видов насекомых. То, что я хочу сделать, - это провести какой-то анализ, который бы дал мне визуальное представление о сходстве разных видов на основе морфологических характеристик. Первой вещью, которая пришла мне в …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.