Вопросы с тегом «unbalanced-classes»

5
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?
Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения своих моделей. Но я наткнулся на одну или две исследовательские работы (в своей области работы), …

4
Краткое руководство по обучению сильно несбалансированных наборов данных
У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о подвыборке и взвешенном случайном лесе приведены здесь: Каковы последствия для обучения ансамбля …

4
Несбалансированные мультиклассовые данные с XGBoost
У меня есть 3 класса с этим распределением: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 И я использую xgboostдля классификации. Я знаю, что есть параметр с именем scale_pos_weight. Но как это обрабатывается для случая «мультикласса», и как я могу правильно установить его?

4
Каковы последствия для обучения ансамбля дерева с сильно смещенными наборами данных?
У меня есть сильно смещенный набор двоичных данных - у меня в 1000 раз больше примеров отрицательного класса, чем положительного. Я хотел бы обучить ансамбль дерева (например, дополнительные случайные деревья или случайный лес) на этих данных, но сложно создать обучающие наборы данных, которые содержат достаточно примеров положительного класса. Каковы будут …

2
Как вы применяете SMOTE в текстовой классификации?
Техника избыточной выборки синтетического меньшинства (SMOTE) - это метод избыточной выборки, используемый в проблеме с несбалансированным набором данных. До сих пор у меня есть идея, как применить его к общим структурированным данным. Но возможно ли применить его к проблеме классификации текста? Какую часть данных вам нужно отбирать? Об этом уже …

1
Сколько ячеек LSTM я должен использовать?
Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть проблема классификации, определяемая как: t - number of time steps n - length …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Несбалансированные классы - Как минимизировать ложные негативы?
У меня есть набор данных, который имеет атрибут бинарного класса. Имеется 623 случая с классом +1 (рак положительный) и 101 671 случай с классом -1 (рак отрицательный). Я пробовал различные алгоритмы (Наивный Байес, Случайный лес, AODE, C4.5), и все они имеют недопустимые ложноотрицательные отношения. Случайный лес имеет наивысшую общую точность …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.