Вопросы с тегом «categorical-data»

Категориальные данные могут принимать ограниченное (обычно фиксированное) количество возможных значений, называемых категориями. Категориальные значения «маркируют», они не «меряют». Номинальные и дихотомические / двоичные типы шкалы категоричны. Некоторые люди тоже считают категориальным порядковый номер.

13
Кластеризация K-средних для смешанных числовых и категориальных данных
Мой набор данных содержит ряд числовых атрибутов и один категориальный. Скажи NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, где CategoricalAttrпринимает один из трех возможных значений: CategoricalAttrValue1, CategoricalAttrValue2или CategoricalAttrValue3. Я использую стандартную реализацию алгоритма кластеризации k-средних для Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Работает только с числовыми данными. Поэтому мой вопрос: правильно ли разделить категориальный атрибут …

3
Когда использовать One Hot Encoding против LabelEncoder против DictVectorizor?
Я уже некоторое время строю модели с категориальными данными, и когда в этой ситуации я в основном по умолчанию использую функцию LabelEncoder scikit-learn для преобразования этих данных до построения модели. Я понимаю разницу между OHE, LabelEncoderи DictVectorizorс точки зрения того, что они делают , чтобы данные, но то , что …

3
Как объединить категориальные и непрерывные функции ввода для обучения нейронной сети
Предположим, у нас есть два вида входных функций: категориальные и непрерывные. Категориальные данные могут быть представлены в виде горячего кода A, тогда как непрерывные данные - это просто вектор B в N-мерном пространстве. Кажется, что просто использование concat (A, B) не является хорошим выбором, потому что A, B - совершенно …

2
Зачем нам отбрасывать одну фиктивную переменную?
Я узнал, что для создания регрессионной модели мы должны позаботиться о категориальных переменных, преобразовав их в фиктивные переменные. Например, если в нашем наборе данных есть переменная типа location: Location ---------- Californian NY Florida Мы должны конвертировать их как: 1 0 0 0 1 0 0 0 1 Однако было предложено …

1
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)
Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для каждого уровня, значения функций относятся к каждому уровню, а не к …

3
Массовое преобразование категориальных столбцов в Pandas (не одноразовое кодирование)
У меня есть панды dataframe с тоннами категоричных колонн, которые я планирую использовать в дерево решений с scikit учиться. Мне нужно преобразовать их в числовые значения (не один горячий вектор). Я могу сделать это с LabelEncoder из scikit учиться. Проблема в том, что их слишком много, и я не хочу …

3
Как я могу динамически различать категориальные данные и числовые данные?
Я знаю кого-то, кто работает над проектом, который включает в себя прием файлов данных без учета столбцов или типов данных. Задача состоит в том, чтобы взять файл с любым количеством столбцов и различных типов данных и вывести сводную статистику по числовым данным. Однако он не уверен в том, как динамически …

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Как преобразовать категориальные данные в числовые данные в Pyspark
Я использую ноутбук Ipython для работы с приложениями pyspark. У меня есть файл CSV с множеством категориальных столбцов, чтобы определить, находится ли доход ниже или выше диапазона 50 КБ. Я хотел бы выполнить алгоритм классификации, используя все входные данные для определения диапазона доходов. Мне нужно создать словарь переменных для сопоставленных …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Как я могу сделать классификацию с категориальными данными, которые не являются фиксированными?
У меня есть проблема классификации с категориальными и числовыми данными. Проблема, с которой я сталкиваюсь, заключается в том, что мои категориальные данные не являются фиксированными, это означает, что у нового кандидата, метка которого я хочу предсказать, может быть новая категория, которая ранее не наблюдалась. Например, если мои категорические данные были …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.