Вопросы с тегом «unsupervised-learning»

Поиск скрытой (статистической) структуры в немаркированных данных, включая кластеризацию и извлечение признаков для уменьшения размерности.

1
Дистанционное наблюдение: под наблюдением, под наблюдением или оба?
«Дистанционный контроль» - это схема обучения, в которой классификатор обучается с использованием слабо маркированного обучающего набора (данные обучения автоматически маркируются на основе эвристики / правил). Я думаю, что как контролируемое обучение, так и полууправляемое обучение могут включать такое «дистанционное наблюдение», если их помеченные данные эвристически / автоматически помечены. Тем не …


4
Как понять недостатки иерархической кластеризации?
Может кто-нибудь объяснить плюсы и минусы иерархической кластеризации? Имеет ли иерархическая кластеризация те же недостатки, что и K? Каковы преимущества иерархической кластеризации по сравнению с K средствами? Когда мы должны использовать средства K вместо иерархической кластеризации и наоборот? Ответы на этот пост очень хорошо объясняют недостатки k средств. Как понять …

4
Точность градиентной машины уменьшается с увеличением числа итераций
Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 


3
Что такое смешивание данных?
Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему результату. Есть ли какой-нибудь ресурс, который поможет мне узнать больше …

4
Что такое * искусственная нейронная сеть?
Когда мы углубимся в литературу по нейронным сетям , мы сможем идентифицировать другие методы с нейроморфными топологиями (архитектура, подобная «нейронной сети»). И я не говорю о теореме универсального приближения . Примеры приведены ниже. Тогда это заставляет меня задуматься: каково определение искусственной нейронной сети? Его топология, кажется, охватывает все. Примеры: Одна …

3
Как выбрать оптимальное количество скрытых факторов при неотрицательной матричной факторизации?
Принимая во внимание матрицы Vm×nVm×n\mathbf V^{m \times n} , неотрицательная матрица Факторизация (ФС) находит две неотрицательных матрицы Wm×kWm×k\mathbf W^{m \times k} и Hk×nHk×n\mathbf H^{k \times n} (то есть со всеми элементами ≥0≥0\ge 0 ) , чтобы представить разложившуюся матрицу , как: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, например, требуя , …

4
Как измерить форму кластера?
Я знаю, что этот вопрос недостаточно четко определен, но некоторые кластеры имеют тенденцию быть эллиптическими или лежать в пространстве меньшего размера, в то время как другие имеют нелинейные формы (в 2D или 3D-примерах). Есть ли мера нелинейности (или «формы») кластеров? Обратите внимание, что в двумерном и трехмерном пространстве не является …

3
Выбор гиперпараметров с использованием T-SNE для классификации
В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной. Я и другие участники на какое-то время применяем генерацию признаков, и встраивание стохастических соседей с t-распределением оказалось довольно …

4
Инициализация K-средних центров с помощью случайных подвыборок набора данных?
Если у меня есть определенный набор данных, насколько разумно было бы инициализировать центры кластеров, используя случайные выборки этого набора данных? Например, предположим, я хочу 5 clusters. Я, 5 random samplesскажем, size=20%из оригинального набора данных. Могу ли я затем взять среднее значение каждой из этих 5 случайных выборок и использовать эти …

1
Есть ли разница между дистанционным наблюдением, самообучением, самообучаемым обучением и слабым наблюдением?
Из того, что я прочитал: Дистанционное наблюдение : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and …

4
Можете ли вы сравнить различные методы кластеризации в наборе данных без какой-либо базовой правды путем перекрестной проверки?
В настоящее время я пытаюсь проанализировать набор данных текстового документа, который не имеет основательной правды. Мне сказали, что вы можете использовать k-кратную перекрестную проверку для сравнения различных методов кластеризации. Однако примеры, которые я видел в прошлом, используют основную правду. Есть ли способ использовать средства K-Fold в этом наборе данных для …

2
Применение машинного обучения для фильтрации DDoS
В курсе машинного обучения Стэнфорда Эндрю Нг упомянул применение ML в IT. Некоторое время спустя, когда я получил DDoS умеренного размера (около 20 тыс. Ботов) на нашем сайте, я решил бороться с ним, используя простой классификатор Neural Network. Я написал этот скрипт на python примерно за 30 минут: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Он …

5
SOM кластеризация для номинальных / циклических переменных
Просто интересно, знаком ли кто-нибудь с кластеризацией номинальных входов. Я рассматривал SOM как решение, но, видимо, оно работает только с числовыми функциями. Есть ли расширения для категориальных функций? В частности, мне было интересно узнать о «Днях недели» как о возможностях. Конечно, его можно преобразовать в числовую характеристику (т. Е. Пн-Вс, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.