Вопросы с тегом «feature-engineering»

3
Когда использовать One Hot Encoding против LabelEncoder против DictVectorizor?
Я уже некоторое время строю модели с категориальными данными, и когда в этой ситуации я в основном по умолчанию использую функцию LabelEncoder scikit-learn для преобразования этих данных до построения модели. Я понимаю разницу между OHE, LabelEncoderи DictVectorizorс точки зрения того, что они делают , чтобы данные, но то , что …

6
Функции кодирования, такие как месяц и час, как категориальные или числовые?
Лучше ли кодировать функции, такие как месяц и час, как фактор или число в модели машинного обучения? С одной стороны, я считаю, что числовое кодирование может быть разумным, поскольку время - это прогрессирующий процесс (за пятым месяцем следует шестой), но с другой стороны, я думаю, что категориальное кодирование может быть …


1
Если один горячий вектор масштабируется с числовыми атрибутами
В случае наличия комбинации категориальных и числовых атрибутов я обычно конвертирую категориальные атрибуты в один горячий вектор. Мой вопрос заключается в том, чтобы оставить эти векторы как есть и масштабировать числовые атрибуты посредством стандартизации / нормализации, или мне следует масштабировать один горячий вектор вместе с числовыми атрибутами?

3
Как выполнить проектирование функций на неизвестных функциях?
Я участвую в соревнованиях по борьбе. Набор данных имеет около 100 объектов, и все они неизвестны (с точки зрения того, что на самом деле они представляют). В основном это просто цифры. Люди выполняют много функций по разработке этих функций. Мне интересно, как именно можно выполнить разработку функций для функций, которые …

1
Способы работы с функцией долготы / широты [закрыто]
Закрыто . Этот вопрос нуждается в деталях или ясности . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Добавьте детали и проясните проблему, отредактировав этот пост . Закрыто 3 года назад . Я работаю над вымышленным набором данных с 25 функциями. Двумя характеристиками являются широта и долгота места, …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Почему мы преобразуем перекос данных в нормальное распределение
Я проходил решение конкурса цен на жилье на Kaggle ( ядро Human Analog по ценам на жилье : методы предварительной регрессии ) и наткнулся на эту часть: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew …

1
В чем разница между одной горячей кодировкой и одной внешней кодировкой?
Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между ними?

4
Это хорошая практика разработки функций?
У меня есть практический вопрос о проектировании функций ... скажем, я хочу прогнозировать цены на жилье с помощью логистической регрессии и использовал множество функций, включая почтовый индекс. Затем, проверив важность функции, я понял, что zip - довольно хорошая функция, поэтому я решил добавить еще несколько функций на основе zip - …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.