Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

1
Преимущества стратифицированной и случайной выборки для получения обучающих данных в классификации
Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации. Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе, чем случайная выборка? Приложение, для которого я хотел бы использовать стратифицированную выборку …

2
Случайный лес переоснащается?
Я экспериментирую со случайными лесами с помощью scikit-learn, и я получаю отличные результаты моего тренировочного набора, но относительно плохие результаты на моем тестовом наборе ... Вот проблема (по мотивам покера), которую я пытаюсь решить: с учетом карманных карт игрока А, карманных карт игрока Б и флопа (3 карты), у какого …

3
Обучение под наблюдением, активное обучение и глубокое обучение для классификации
Окончательное редактирование со всеми обновленными ресурсами: Для проекта я применяю алгоритмы машинного обучения для классификации. Задача: довольно ограниченные помеченные данные и гораздо больше непомеченных данных. Цели: Применить классификацию под наблюдением Применять как-то полу-контролируемый процесс маркировки (известный как активное обучение) Я нашел много информации из исследовательских работ, таких как применение EM, …

7
Смещенные данные в машинном обучении
Я работаю над проектом машинного обучения с данными, которые уже (сильно) смещены при выборе данных. Предположим, у вас есть набор жестко закодированных правил. Как вы строите модель машинного обучения, чтобы заменить ее, когда все данные, которые она может использовать, являются данными, которые уже были отфильтрованы по этим правилам? Чтобы прояснить …

1
Мнения о передискретизации в целом и алгоритме SMOTE в частности [закрыто]
Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 2 года назад . Что вы думаете о передискретизации в классификации в целом и алгоритме SMOTE в частности? …

5
Масштабная классификация текста
Я хочу сделать классификацию на мои текстовые данные. У меня есть 300 classes200 учебных документов на класс (так 60000 documents in total), и это, вероятно, приведет к очень большим размерам данных (возможно, мы просматриваем более 1 миллиона измерений ). Я хотел бы выполнить следующие шаги в конвейере (просто чтобы дать …

10
Наборы данных социальных сетей
Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я ищу наборы данных социальных сетей (Twitter, FriendFeed, Facebook, LastFM и т. Д.) Для задач классификации, предпочтительно в формате ARFF. Мои поиски …

3
Является ли построение мультиклассового классификатора лучше, чем несколько бинарных?
Мне нужно классифицировать URL-адреса по категориям. Скажем, у меня есть 15 категорий, к которым я планирую обнулить каждый URL. Классификатор с 15 путями лучше? Где у меня есть 15 меток и генерировать функции для каждой точки данных. Или построить 15 бинарных классификаторов, скажем: Movie или Non-Movie, и использовать числа, которые …

2
Почему классификатор регрессии гребня работает достаточно хорошо для классификации текста?
Во время эксперимента по классификации текста я обнаружил, что классификатор гребней генерирует результаты, которые постоянно превосходят тесты среди тех классификаторов, которые чаще упоминаются и применяются для задач интеллектуального анализа текста, таких как SVM, NB, kNN и т. Д. Хотя я не разработал по оптимизации каждого классификатора для этой конкретной задачи …

2
Классификация тестирования данных с избыточным дискретизацией
Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный синтетический подход к выборке для несбалансированного обучения ( ADASYN ) Я реализовал ADASYN, потому что …

1
Тест: Скажите классификатору по границе его решения
Ниже приведены 6 границ принятия решений. Границы решения - фиолетовые линии. Точки и крестики - это два разных набора данных. Мы должны решить, какой из них: Линейный СВМ Ядро SVM (Полиномиальное ядро ​​порядка 2) Perceptron Логистическая регрессия Нейронная сеть (1 скрытый слой с 10 выпрямленными линейными единицами) Нейронная сеть (1 …

3
Когда я не должен использовать ансамблевой классификатор?
В общем, в проблеме классификации, где цель состоит в том, чтобы точно предсказать членство в классах вне выборки, когда я не должен использовать ансамблевый классификатор? Этот вопрос тесно связан с тем, почему не всегда использовать ансамблевое обучение? , Этот вопрос спрашивает, почему мы не используем ансамбли все время. Я хочу …

1
Когда Наивный Байес работает лучше, чем SVM?
В небольшой проблеме классификации текста, которую я рассматривал, Наивный Байес демонстрирует производительность, аналогичную или превышающую SVM, и я был очень смущен. Мне было интересно, какие факторы определяют триумф одного алгоритма над другим. Существуют ли ситуации, когда нет смысла использовать наивный байесовский метод вместо SVM? Может кто-то пролить свет на это?

1
Я хочу построить индекс преступности и индекс политической нестабильности, основанный на новостях
У меня есть этот побочный проект, где я сканирую местные новостные сайты в моей стране и хочу создать индекс преступности и индекс политической нестабильности. Я уже освещал информационно-поисковую часть проекта. Мой план состоит в том, чтобы сделать: Неконтролируемая тема извлечения. Обнаружение близких дубликатов. Контролируемая классификация и уровень инцидента (преступность / …

3
Сравнение двух результатов точности классификатора для статистической значимости с t-тестом
Я хочу сравнить точность двух классификаторов по статистической значимости. Оба классификатора работают на одном наборе данных. Это наводит меня на мысль, что я должен использовать один образец t-критерия из того, что я читал . Например: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 Это правильный тест для …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.