Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

11
Что такое уменьшение размерности? В чем разница между выбором объектов и извлечением?
Из википедии, Уменьшение размерности или уменьшение размерности - это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор и извлечение признаков. В чем разница между выбором и извлечением объектов? Что является примером уменьшения размерности в задаче обработки естественного языка?

10
Машинное обучение - особенности проектирования из данных даты / времени
Каковы общие / лучшие практики для обработки данных о времени для приложения машинного обучения? Например, если в наборе данных есть столбец с отметкой времени события, например «2014-05-05», как вы можете извлечь полезные функции из этого столбца, если таковые имеются? Заранее спасибо!

5
Есть ли у scikit-learn алгоритм прямого выбора / ступенчатой ​​регрессии?
Я работаю над проблемой со слишком многими функциями, и обучение моих моделей занимает слишком много времени. Я реализовал алгоритм прямого выбора для выбора функций. Однако мне было интересно, есть ли у scikit-learn алгоритм прямого выбора / пошаговой регрессии?

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
Есть ли инструменты для разработки функций?
В частности, я ищу инструменты с определенной функциональностью, которая специфична для разработки функций. Я хотел бы иметь возможность легко сглаживать, визуализировать, заполнять пробелы и т. Д. Что-то похожее на MS Excel, но в качестве базового языка вместо RB используется R.

4
XGBoost сам обрабатывает мультиколлинеарность?
В настоящее время я использую XGBoost для набора данных с 21 функцией (выбранной из списка из 150 функций), а затем горячо закодировал их, чтобы получить ~ 98 функций. Некоторые из этих 98 функций несколько избыточны, например: переменная (функция) также отображается как и .AAAВAВA\frac{B}{A}СAСA\frac{C}{A} Мои вопросы: Как ( если? ) Деревья …

3
Как выполнить проектирование функций на неизвестных функциях?
Я участвую в соревнованиях по борьбе. Набор данных имеет около 100 объектов, и все они неизвестны (с точки зрения того, что на самом деле они представляют). В основном это просто цифры. Люди выполняют много функций по разработке этих функций. Мне интересно, как именно можно выполнить разработку функций для функций, которые …

2
Текстовая категоризация: объединение различных видов функций
Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в тестовом наборе, почти 100% в тренировочном наборе). Большой проблемой являются невидимые слова …

4
Какие-нибудь «практические правила» в отношении количества функций в зависимости от количества экземпляров? (небольшие наборы данных)
Мне интересно, есть ли какие-либо эвристики по количеству признаков и количеству наблюдений. Очевидно, что если число признаков равно количеству наблюдений, модель будет соответствовать. Используя разреженные методы (LASSO, эластичная сетка), мы можем удалить несколько функций, чтобы уменьшить модель. Мой вопрос (теоретически): прежде чем использовать метрики для оценки выбора модели, существуют ли …

2
Как выбрать функции для нейронной сети?
Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта функция …

5
сделать морскую карту тепла больше
Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера тепловой карты?
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Выбор функций против извлечения функций. Что использовать, когда?
Извлечение функций и выбор функций существенно уменьшают размерность данных, но извлечение функций также делает данные более разделимыми, если я прав. Какой метод предпочтительнее другого и когда? Я подумал, поскольку выбор функции не изменяет исходные данные и их свойства, я предполагаю, что вы будете использовать выбор функции, когда важно, чтобы функции, …

3
Как объединить категориальные и непрерывные функции ввода для обучения нейронной сети
Предположим, у нас есть два вида входных функций: категориальные и непрерывные. Категориальные данные могут быть представлены в виде горячего кода A, тогда как непрерывные данные - это просто вектор B в N-мерном пространстве. Кажется, что просто использование concat (A, B) не является хорошим выбором, потому что A, B - совершенно …

4
Как указать важные атрибуты?
Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например, «национальность» или «рожденный»). Моя цель - найти некоторые «важные» атрибуты, которые каким-то образом …

4
Каковы последствия для обучения ансамбля дерева с сильно смещенными наборами данных?
У меня есть сильно смещенный набор двоичных данных - у меня в 1000 раз больше примеров отрицательного класса, чем положительного. Я хотел бы обучить ансамбль дерева (например, дополнительные случайные деревья или случайный лес) на этих данных, но сложно создать обучающие наборы данных, которые содержат достаточно примеров положительного класса. Каковы будут …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.