Вопросы с тегом «categorical-data»

Категориальные (также называемые номинальными) данные могут принимать ограниченное количество возможных значений, называемых категориями. Категориальные значения «обозначают», они не «измеряют». Пожалуйста, используйте тег [ordinal-data] для дискретных, но упорядоченных типов данных.

5
Каков наилучший способ визуализации отношений между дискретными и непрерывными переменными?
Каков наилучший способ показать отношения между: непрерывная и дискретная переменная, две дискретные переменные? До сих пор я использовал точечные диаграммы, чтобы посмотреть на связь между непрерывными переменными. Однако в случае дискретных переменных точки данных накапливаются через определенные промежутки времени. Таким образом, линия наилучшего соответствия может быть предвзятой.


5
Как перекодировать категориальную переменную в числовую переменную при использовании SVM или нейронной сети
Чтобы использовать SVM или нейронную сеть, необходимо преобразовать (закодировать) категориальные переменные в числовые переменные. Обычный метод в этом случае - использовать 0-1 двоичные значения с k-ным категориальным значением, преобразованным в (0,0, .. ., 1,0, ... 0) (1 находится в k-й позиции). Существуют ли другие способы сделать это, особенно когда существует …

4
Могут ли быть кластеры с категориальными данными без связанных переменных?
Пытаясь объяснить кластерный анализ, люди часто неправильно понимают процесс как связанный с тем, связаны ли переменные. Один из способов избавить людей от этой путаницы - это заговор, подобный этому: Это ясно показывает разницу между вопросом о наличии кластеров и вопросом о том, связаны ли переменные. Однако это только иллюстрирует различие …

2
Интерпретация бета при наличии нескольких категориальных переменных
Я понимаю концепцию, что является средним значением, когда категориальная переменная равна 0 (или является контрольной группой), давая конечную интерпретацию того, что коэффициент регрессии - это разница в среднем двух категорий. Даже при> 2 категориях я бы предположил, что каждая объясняет разницу между средним значением этой категории и ссылкой.β^0β^0\hat\beta_0β^β^\hat\beta Но что, …

4
Нетранзитивность корреляции: корреляция между полом и размером мозга и между размером мозга и IQ, но нет корреляции между полом и IQ
Я нашел следующее объяснение в блоге и хотел бы получить больше информации о нетранзитивности корреляции: У нас есть следующие неоспоримые факты: В среднем, разница в объеме мозга у мужчин и женщин Существует корреляция между IQ и размером мозга; корреляция составляет 0,33 и, таким образом, соответствует 10% изменчивости IQ Из этих …

1
Как бороться с SVM с категориальными атрибутами
У меня есть пространство 35 измерений (атрибуты). Моя аналитическая проблема - простая классификационная. Из 35 измерений более 25 являются категориальными, и каждый атрибут принимает более 50 типов значений. В этом случае введение фиктивной переменной также не будет работать для меня. Как я могу запустить SVM в пространстве, которое имеет много …

5
Какую сводную статистику использовать с категориальными или качественными переменными?
Просто чтобы уточнить, когда я имею в виду сводную статистику, я имею в виду среднее значение, диапазоны среднего квартиля, дисперсию, стандартное отклонение. Имеет ли смысл найти среднее значение, медиану, квартильный диапазон, дисперсию и стандартное отклонение при суммировании одномерного, категориального или качественного , с учетом как номинального, так и ординального случаев? …

2
Обнаружение аномалий с фиктивными характеристиками (и другими дискретными / категориальными характеристиками)
ТЛ; др Каков рекомендуемый способ обработки discreteданных при обнаружении аномалий? Каков рекомендуемый способ обработки categoricalданных при обнаружении аномалий? Этот ответ предлагает использовать дискретные данные для фильтрации результатов. Возможно, замените значение категории шансом наблюдения перктата? вступление Это моя первая публикация здесь, поэтому, пожалуйста, если что-то не кажется технически правильным, ни в …

1
Как проверить статистическую значимость категориальной переменной в линейной регрессии?
Если в линейной регрессии у меня есть категориальная переменная ... как я могу узнать статистическую значимость категориальной переменной? Допустим, фактор имеет 10 уровней ... будет 10 различных результирующих t-значений под зонтиком одной факторной переменной ...X1X1X_1X1X1X_1 Мне кажется, что статистическая значимость проверяется для каждого уровня факторной переменной? Нет? @Macro: Следуя вашему …

3
Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?
Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или Non-Movie, и использовать числа, которые …

1
Как относиться к категориальным предикторам в LASSO
Я использую LASSO, в котором есть некоторые категориальные предикторы переменных и некоторые непрерывные. У меня есть вопрос о категориальных переменных. Первый шаг, который я понимаю, - разбить каждого из них на пустышки, стандартизировать их для справедливого наказания, а затем регрессировать. Существует несколько вариантов обработки фиктивных переменных: Включите все манекены, кроме …

2
Качественное кодирование переменных в регрессии приводит к «особенностям»
У меня есть независимая переменная под названием «качество»; эта переменная имеет 3 способа реагирования (плохое качество; среднее качество; высокое качество). Я хочу ввести эту независимую переменную в мою множественную линейную регрессию. Когда у меня есть двоичная независимая переменная (фиктивная переменная, я могу кодировать 0/ 1), ее легко ввести в модель …

2
Альтернатива решетчатым / мозаичным графикам для таблиц сопряженности
Однажды я наткнулся на тип сюжета для категориальных данных (то есть таблиц непредвиденных обстоятельств) в Интернете, который мне действительно понравился, но я никогда не нашел его снова, и я даже не знаю, как он называется. По сути, это было похоже на сито, в котором высота строк и ширина столбцов были …

2
Важность функции с фиктивными переменными
Я пытаюсь понять, как я могу получить важность функции категориальной переменной, которая была разбита на фиктивные переменные. Я использую Scikit-Learn, который не обрабатывает категориальные переменные для вас, как R или H2O. Если я разобью категориальную переменную на фиктивные переменные, я получу отдельные значения свойств для каждого класса в этой переменной. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.