Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

2
Какие особенности обычно используются из деревьев разбора в процессе классификации в НЛП?
Я изучаю различные типы структур дерева разбора. Двумя широко известными структурами дерева разбора являются: а) дерево разбора на основе постоянных и б) основанные на зависимости структуры дерева разбора. Я могу использовать генерацию обоих типов структур дерева разбора с помощью пакета Stanford NLP. Однако я не уверен, как использовать эти древовидные …

1
В чем разница между одной горячей кодировкой и одной внешней кодировкой?
Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между ними?

1
Важность признаков с категоричными признаками высокой кардинальности для регрессии (числовая переменная отклонения)
Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для каждого уровня, значения функций относятся к каждому уровню, а не к …

1
Выбор объектов с использованием значений функций в случайных лесах с помощью scikit-learn
Я нанесены художественные важности в случайных лесах с scikit учиться . Как улучшить прогнозирование с использованием случайных лесов, как я могу использовать информацию о графике для удаления объектов? Т.е. как определить, является ли объект бесполезным или, что еще хуже, снижение производительности случайных лесов, основываясь на информации о графике? Сюжет основан …

3
Существуют ли хорошие готовые языковые модели для Python?
Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
Техника извлечения признаков - суммирование последовательности данных
Я часто строю модель (классификацию или регрессию), где у меня есть некоторые предикторные переменные, которые являются последовательностями, и я пытался найти технические рекомендации для их обобщения наилучшим образом, чтобы включить их в качестве предикторов в модель. В качестве конкретного примера, скажем, строится модель, позволяющая предсказать, покинет ли клиент компанию в …

4
Какой из них первый: бенчмаркинг алгоритмов, выбор функций, настройка параметров?
При попытке сделать, например, классификацию, мой подход в настоящее время заключается в сначала попробуйте различные алгоритмы и сравните их выполнить выбор функции по лучшему алгоритму из 1 выше настроить параметры, используя выбранные функции и алгоритм Однако я часто не могу убедить себя, что может быть лучший алгоритм, чем выбранный, если …


2
Линейная регрессия и масштабирование данных
На следующем графике показаны коэффициенты, полученные с помощью линейной регрессии ( mpgв качестве целевой переменной и всех других в качестве предикторов). Для набора данных mtcars ( здесь и здесь ) как с масштабированием данных, так и без него: Как мне интерпретировать эти результаты? Переменные hpи dispзначимы только в том случае, …

3
Лучшие языки для научных вычислений [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое количество доступных библиотек научных вычислений. …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
Как сравнить производительность методов выбора функций?
Существует несколько подходов выбора функций / выбора переменных (см., Например, Guyon & Elisseeff, 2003 ; Liu et al., 2010 ): методы фильтрации (например, на основе корреляции, на основе энтропии, на основе важности случайных лесов), методы обертки (например, поиск вперед, поиск восхождения на холм) и встроенные методы, где выбор функции является …

4
Отбор характеристик и соотношение точности классификации
Одна из методологий выбора подмножества доступных функций для вашего классификатора состоит в том, чтобы ранжировать их в соответствии с критерием (таким как получение информации), а затем рассчитать точность, используя ваш классификатор и подмножество ранжированных функций. Например, если у вас есть характеристики A, B, C, D, E, и если они ранжируются …


3
Можно ли использовать координаты GPS (широту и долготу) в качестве элементов в линейной модели?
У меня есть наборы данных, которые содержат, среди многих функций, GPS-координаты (широта и долгота). Я хотел бы использовать эти наборы данных для изучения таких проблем, как: (1) вычисление ETA для перехода между начальной и конечной точками; и (2) оценка количества преступлений по конкретной точке. Я хотел бы использовать модель линейной …

2
Что делать, если данные тестирования имеют меньше возможностей, чем данные обучения?
Допустим, мы прогнозируем продажи магазина, и мои данные обучения имеют два набора функций: Один о продаже магазина с датами (поле «Магазин» не является уникальным) Один из типов магазинов (поле «Магазин» здесь уникально) Таким образом, матрица будет выглядеть примерно так: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | Customers …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.