Вопросы с тегом «classification»

Статистическая классификация - это проблема идентификации подгруппы, к которой относятся новые наблюдения, где идентичность подгруппы неизвестна, на основе обучающего набора данных, содержащих наблюдения, подгруппа которых известна. Поэтому эти классификации будут показывать переменное поведение, которое может быть изучено статистикой.

3
Почему наивные байесовские классификаторы так хорошо работают?
Наивные байесовские классификаторы являются популярным выбором для задач классификации. Есть много причин для этого, в том числе: «Zeitgeist» - широко распространенная осведомленность после успеха спам-фильтров около десяти лет назад Легко написать Модель классификатора быстро построить Модель может быть изменена с новыми данными обучения без необходимости перестраивать модель Тем не менее, …

2
ImageNet: что такое топ-1 и топ-5 ошибок?
В классификационных документах ImageNet показатели ошибок топ-1 и топ-5 являются важными единицами измерения успешности некоторых решений, но каковы эти коэффициенты ошибок? В классификации ImageNet с глубокими сверточными нейронными сетями Крижевский и соавт. каждое решение, основанное на одной CNN (стр. 7), не имеет топ-5 ошибок, в то время как решения с …

3
Применить вложения слов ко всему документу, чтобы получить вектор объектов
Как использовать вложение слов для сопоставления документа с вектором объектов, подходящим для использования с контролируемым обучением? Слово вложение отображает каждое слово к вектору , где некоторые не слишком большое количество (например, 500). Популярные вложения слова включают в себя word2vec и Glove .весвесwv ∈ Rdv∈рdv \in \mathbb{R}^dddd Я хочу применять контролируемое …

3
SVM, переоснащение, проклятие размерности
Мой набор данных небольшой (120 выборок), однако количество объектов велико и варьируется от (1000-200 000). Хотя я делаю выбор функции, чтобы выбрать подмножество функций, она все равно может быть перегружена. Мой первый вопрос: как SVM справляется с перегрузкой? Во-вторых, поскольку я больше изучаю переобучение в случае классификации, я пришел к …

6
Улучшение классификации со многими категориальными переменными
Я работаю над набором данных с 200 000+ выборок и примерно 50 объектами на выборку: 10 непрерывных переменных, а остальные ~ 40 являются категориальными переменными (страны, языки, научные области и т. Д.). Для этих категориальных переменных у вас есть, например, 150 разных стран, 50 языков, 50 научных областей и т. …

2
Логистическая регрессия против LDA как классификаторы двух классов
Я пытаюсь обернуть голову вокруг статистической разницы между линейным дискриминантным анализом и логистической регрессией . Правильно ли я понимаю, что для двух классов задачи классификации LDA предсказывает две функции нормальной плотности (по одной для каждого класса), которые создают линейную границу, где они пересекаются, тогда как логистическая регрессия только предсказывает нечетно-логическую …

3
PCA и разделение поезда / теста
У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для всего набора данных, а затем использовать …

3
Как интерпретировать OOB и путаницу для случайного леса?
Я получил R-скрипт от кого-то для запуска модели случайного леса. Я изменил и запустил его с некоторыми данными о сотрудниках. Мы пытаемся предсказать добровольное увольнение. Вот некоторая дополнительная информация: это модель классификации, в которой 0 = сотрудник остался, 1 = сотрудник уволен, в настоящее время мы рассматриваем только дюжину переменных …

5
Свободный набор данных для очень высокой размерной классификации [закрыто]
Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

3
Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов
У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных значениях в функции? В любом случае, означает ли среднее …

3
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?
В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель не может создавать полезные группировки. …

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
Что подразумевается под «слабым учеником»?
Может кто-нибудь сказать мне, что подразумевается под фразой «слабый ученик»? Это должна быть слабая гипотеза? Я запутался в отношениях между слабым учеником и слабым классификатором. Оба одинаковы или есть какая-то разница? В алгоритме adaboost T=10. Что подразумевается под этим? Почему мы выбираем T=10?


6
Статистическая классификация текста
Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом работы. Какие ресурсы вы рекомендуете? Я достаточно …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.