Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

3
Каковы преимущества стекирования нескольких LSTM?
Каковы преимущества, почему можно использовать несколько LSTM, расположенных рядом друг с другом, в глубокой сети? Я использую LSTM для представления последовательности входов в качестве одного входа. Итак, если у меня есть это единственное представление - зачем мне его снова проходить? Я спрашиваю об этом, потому что я видел это в …

4
Какую проблему решают передискретизация, недостаточная выборка и SMOTE?
В недавнем, хорошо полученном вопросе Тим спрашивает, когда несбалансированные данные действительно являются проблемой в машинном обучении ? Предпосылка вопроса заключается в том, что существует много литературы по машинному обучению, в которой обсуждается баланс классов и проблема несбалансированных классов . Идея состоит в том, что наборы данных с дисбалансом между положительным …

2
Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?
Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу контролируемого размера. Часто я вижу, как пользователи строят свой вектор признаков, используя TFIDF. Другими словами, частоты …

1
Какова вероятность того, что случайных точек в измерениях линейно разделимы?
Для точек данных, каждая из которых имеет признаков, помечены как , остальные помечены как . Каждый признак принимает значение от случайным образом (равномерное распределение). Какова вероятность того, что существует гиперплоскость, которая может разделить два класса?Nnndddн / 2n/2n/2000н / 2n/2n/2111[ 0 , 1 ][0,1][0,1] Давайте сначала рассмотрим самый простой случай, т.е. …

3
Перекрестная проверка или начальная загрузка для оценки эффективности классификации?
Какой метод выборки является наиболее подходящим для оценки производительности классификатора на конкретном наборе данных и сравнения его с другими классификаторами? Перекрестная проверка кажется стандартной практикой, но я читал, что такие методы, как .632 начальной загрузки, являются лучшим выбором. В качестве продолжения: влияет ли выбор метрики производительности на ответ (если я …

2
Насколько большой тренировочный набор необходим?
Существует ли общий метод, используемый для определения того, сколько обучающих выборок требуется для обучения классификатора (в данном случае LDA) для получения минимальной пороговой точности обобщения? Я спрашиваю, потому что я хотел бы минимизировать время калибровки, обычно требуемое в интерфейсе мозг-компьютер.

2
В чем разница между функцией потерь и функцией принятия решений?
Я вижу, что обе функции являются частью методов интеллектуального анализа данных, таких как Gradient Boosting Regressors. Я вижу, что это тоже отдельные объекты. Каковы отношения между обоими в целом?

2
Как справиться с разницей между распределением тестового набора и обучающего набора?
Я думаю, что одно из основных предположений о машинном обучении или оценке параметров заключается в том, что невидимые данные поступают из того же распределения, что и обучающий набор. Однако в некоторых практических случаях распределение тестового набора будет практически отличаться от учебного набора. Скажем, для крупномасштабной задачи мульти-классификации, которая пытается классифицировать …

3
Визуализация калибровки прогнозируемой вероятности модели
Предположим, у меня есть прогностическая модель, которая выдает для каждого случая вероятность для каждого класса. Теперь я признаю, что есть много способов оценить такую ​​модель, если я хочу использовать эти вероятности для классификации (точность, отзыв и т. Д.). Я также признаю, что кривая ROC и область под ней могут использоваться …

5
Альтернативы деревьям классификации, с лучшей прогностической (например, CV) эффективностью?
Я ищу альтернативу деревьям классификации, которая могла бы дать лучшую предсказательную силу. Данные, с которыми я имею дело, имеют факторы как для объясняющих, так и для объясненных переменных. Я помню, что сталкивался со случайными лесами и нейронными сетями в этом контексте, хотя никогда не пробовал их раньше, есть ли другой …

6
Точность теста выше, чем обучение. Как интерпретировать?
У меня есть набор данных, содержащий не более 150 примеров (разделенных на обучение и тестирование) со многими функциями (более 1000). Мне нужно сравнить классификаторы и методы выбора функций, которые хорошо работают с данными. Итак, я использую три метода классификации (J48, NB, SVM) и 2 метода выбора объектов (CFS, WrapperSubset) с …

4
Почему исследователи используют 10-кратную перекрестную проверку вместо тестирования на наборе проверки?
Я прочитал много исследовательских работ о классификации настроений и смежных темах. Большинство из них используют 10-кратную перекрестную проверку для обучения и тестирования классификаторов. Это означает, что не проводится отдельное тестирование / проверка. Почему это? Каковы преимущества / недостатки этого подхода, особенно для тех, кто проводит исследования?

4
Когда применимы результаты Шао по кросс-проверке с пропуском?
В своей статье « Выбор линейной модели с помощью перекрестной проверки» Джун Шао показывает, что для задачи выбора переменных в многомерной линейной регрессии метод перекрестной проверки «без выходных данных» (LOOCV) является «асимптотически несовместимым». Проще говоря, он имеет тенденцию выбирать модели со слишком большим количеством переменных. В симуляционном исследовании Шао показывает, …

1
Выбор среди правильных правил подсчета очков
В большинстве ресурсов о правильных правилах оценки упоминается ряд различных правил оценки, таких как потеря журнала, оценка Бриера или сферическая оценка. Тем не менее, они часто не дают больших указаний на различия между ними. (Приложение A: Википедия .) Выбор модели, которая максимизирует логарифмическую оценку, соответствует выбору модели максимального правдоподобия, которая …

2
Ограниченные машины Больцмана против многослойных нейронных сетей
Я давно хотел поэкспериментировать с нейронной сетью для решения проблемы классификации, с которой я столкнулся. Я столкнулся с бумагами, которые говорят о УКР. Но из того, что я могу понять, они ничем не отличаются от наличия многослойной нейронной сети. Это точно? Более того, я работаю с R и не вижу …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.