Вопросы с тегом «classification»

Экземпляр контролируемого обучения, который определяет категорию или категории, к которым принадлежит новый экземпляр набора данных.

8
Как установить веса классов для несбалансированных классов в Керасе?
Я знаю, что в Керасе есть возможность при подборе class_weightsсловаря параметров, но я не смог найти ни одного примера. Будет ли кто-то так любезно предоставить? Кстати, в этом случае подходящей практикой является просто взвесить класс меньшинства пропорционально его недопредставленности?

6
Косинусное сходство против точечного произведения как метрики расстояния
Похоже, что косинусное сходство двух признаков - это просто их точечное произведение, масштабированное произведением их величин. Когда косинусное сходство делает лучшую метрику расстояния, чем скалярное произведение? Т.е. имеют ли точечное произведение и косинусное сходство разные сильные или слабые стороны в разных ситуациях?

1
Какая модель Keras лучше всего подходит для мультиклассовой классификации?
Я работаю на исследования, где необходимо классифицировать один из WINNER три события = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя текущая модель: def build_model(input_dim, output_classes): …

5
Глубокое обучение против повышения градиента: когда и что использовать?
У меня проблема с большими данными с большим набором данных (например, 50 миллионов строк и 200 столбцов). Набор данных состоит из около 100 числовых столбцов и 100 категориальных столбцов и столбца ответов, представляющего проблему двоичного класса. Мощность каждого из категориальных столбцов составляет менее 50. Я хочу знать априори, должен ли …

1
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?
Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал пытаться вырастить 500 деревьев, так …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Краткое руководство по обучению сильно несбалансированных наборов данных
У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о подвыборке и взвешенном случайном лесе приведены здесь: Каковы последствия для обучения ансамбля …

4
Когда использовать Random Forest поверх SVM и наоборот?
Когда можно использовать Random Forestснова SVMи наоборот? Я понимаю, что cross-validationсравнение моделей является важным аспектом выбора модели, но здесь я хотел бы узнать больше о практических правилах и эвристике этих двух методов. Может кто-нибудь объяснить, какие тонкости, сильные и слабые стороны классификаторов, а также проблемы, которые лучше всего подходят для …

4
Какие алгоритмы я должен использовать для выполнения классификации работы на основе данных резюме?
Обратите внимание, что я делаю все в R. Проблема заключается в следующем: В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным секторам работы. Я …

5
Являются ли алгоритмы дерева решений линейными или нелинейными
Недавно моего друга спросили, являются ли алгоритмы дерева решений линейными или нелинейными алгоритмами в интервью. Я пытался найти ответы на этот вопрос, но не смог найти удовлетворительного объяснения. Может кто-нибудь ответить и объяснить решение этого вопроса? Кроме того, каковы некоторые другие примеры нелинейных алгоритмов машинного обучения?

4
Как получить точность, F1, точность и отзыв, для модели Keras?
Я хочу вычислить точность, отзыв и оценку F1 для моей двоичной модели KerasClassifier, но не нашел никакого решения. Вот мой фактический код: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) …

3
В чем разница между классификацией текста и тематическими моделями?
Я знаю разницу между кластеризацией и классификацией в машинном обучении, но я не понимаю разницу между классификацией текста и тематическим моделированием для документов. Могу ли я использовать моделирование темы поверх документов, чтобы определить тему? Могу ли я использовать методы классификации для классификации текста внутри этих документов?

4
Несбалансированные мультиклассовые данные с XGBoost
У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить его?

2
Текстовая категоризация: объединение различных видов функций
Проблема, с которой я сталкиваюсь, состоит в классификации коротких текстов на несколько классов. Мой текущий подход заключается в использовании частотных терминов tf-idf и изучении простого линейного классификатора (логистическая регрессия). Это работает достаточно хорошо (около 90% макроса F-1 в тестовом наборе, почти 100% в тренировочном наборе). Большой проблемой являются невидимые слова …

4
Когда можно использовать манхэттенское расстояние как противоположное евклидову?
Я пытаюсь найти хороший аргумент о том, почему в машинном обучении можно использовать расстояние Манхэттена над евклидовым расстоянием . До сих пор я нашел хороший аргумент в этой лекции в Массачусетском технологическом институте . В 36:15 вы можете увидеть на слайдах следующее утверждение: «Обычно используют евклидову метрику; Манхэттен может быть …

5
Выберите алгоритм двоичной классификации
У меня есть проблема двоичной классификации: Примерно 1000 образцов в тренировочном наборе 10 атрибутов, включая двоичные, числовые и категориальные Какой алгоритм является лучшим выбором для этого типа проблемы? По умолчанию я собираюсь начать с SVM (предварительно имея номинальные значения атрибутов, преобразованные в двоичные объекты), поскольку он считается лучшим для относительно …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.