Есть ли «неконтролируемая регрессия»?

15

Если я прав, «неконтролируемая классификация» такая же, как кластеризация. Тогда есть ли "неконтролируемая регрессия"? Благодарность!

regression unsupervised-learning

— Тим
источник

20

Я никогда не сталкивался с этим термином раньше. Я не уверен, распространит ли он свет или тьму в пределах одной области статистики: это машинное обучение (где контролируемые и неконтролируемые различия имеют решающее значение для решения проблем) и логическая статистика (где чаще всего используются регрессия, подтверждающий анализ и NHST).

Там, где эти две философии пересекаются, большая часть регрессии и связанной с ней терминологии отбрасывается в строго контролируемой обстановке. Тем не менее, я думаю, что многие существующие концепции в обучении без учителя тесно связаны с подходами, основанными на регрессии, особенно когда вы наивно просматриваете каждый класс или функцию как результат и объединяете результаты. Примером этого является PCA и двумерный корреляционный анализ. Итеративно применяя регрессию наилучшего подмножества для ряда переменных, вы можете выполнить очень сложный вид оценки сети, как это предполагается при моделировании структурных уравнений (строго в смысле EFA). Мне это кажется неконтролируемой проблемой обучения с регрессией.

$Y$ $X$ $X$ $Y$

— Adamo
источник

4

+1, и я голосую за тьму. Поиск в Google дает множество ссылок на «неконтролируемую регрессию», многие из которых относятся к моделированию структурных уравнений / скрытых классов. Из краткого обзора этих работ я лично хотел бы описать их как применение методов наименьших квадратов (LS) и максимизации ожиданий (EM) к неконтролируемым проблемам, а не к «неконтролируемой регрессии»

— JBK

Благодарность! Интересно, есть ли у неконтролируемых проблем обучения коммутативность?

— Тим

Большинство неконтролируемых обучающих приложений, с которыми я сталкивался, имеют дело с оценкой ковариации и (тесно связанной) кластеризацией. Поскольку в этих приложениях вы можете произвольно переставлять столбцы данных, не вызывая проблем, и нет необходимости назначать переменные как функции или ответы, я бы сказал, что эти приложения являются коммутативными.

— AdamO

4

Самая близкая вещь, о которой я могу думать, - это небольшая черная магия, которая взволновала людей, когда это было объявлено несколько лет назад, но я не верю, что она получила какую-то реальную популярность в сообществе. Авторы разработали статистику, которую они назвали «Максимальный информационный коэффициент (MIC)». Общая идея их метода состоит в том, чтобы взять многомерные данные, построить каждую переменную против каждой другой переменной попарно, а затем применить интересный алгоритм объединения окон к каждому графику (который вычисляет MIC для этих двух переменных), чтобы определить, есть ли потенциально связь между двумя переменными. Предполагается, что методика является надежной при идентификации произвольно структурированных отношений , а не только линейных.

Техника предназначена для пар переменных, но я уверен, что она может быть расширена для изучения многомерных отношений. Основная проблема заключается в том, что вам придется запускать технику на значительно большем количестве комбинаций переменных, поскольку вы допускаете перестановки большего и большего количества переменных. Я полагаю, что это, вероятно, займет некоторое время только для пар: попытка использовать это даже для данных с очень большими измерениями и рассмотрение более сложных отношений, чем пары переменных, быстро станет неразрешимой.

Ссылка на статью « Обнаружение новых ассоциаций в больших наборах данных» (2011)

— Дэвид Маркс
источник

0

Авторегрессия - это один из способов вычисления весов матрицы, сводящий к минимуму ошибку на восстановленном входном сигнале с заданного входного значения.

— Калидас Y
источник

0

Этот вопрос возник у меня во время исследования различий между контролируемыми и неконтролируемыми методами. Исходя из эконометрического фона, я предпочитаю думать в моделях, что замедляло мое понимание, так как большая часть литературы по машинному обучению, с которой я столкнулся, фокусируется на методах.

До сих пор я обнаружил, что следует проводить строгое различие между clustering(без присмотра) и classification(под наблюдением). Непрерывная аналогия связи между этими модельными проектами будет principal component analysis(без надзора) против linear regression(под надзором).

Однако я бы сказал, что связь между кластеризацией и классификацией является чисто случайной; он существует только тогда, когда мы интерпретируем оба дизайна модели как описание геометрического отношения, которое я считаю излишне ограничительным. Все известные мне неконтролируемые методы (k-средства, алгоритмы упругой карты, такие как когонен / нейронный газ, DBSCAN, PCA) также можно интерпретировать как модели скрытых переменных. В случае методов кластеризации это будет означать просмотр принадлежности к кластеру как находящегося в состоянии, которое может быть закодировано как модель скрытой переменной путем введения фиктивных состояний.

Учитывая интерпретацию как модели скрытых переменных, вы можете указать любую, возможно, нелинейную модель, которая описывает ваши функции в терминах непрерывных скрытых переменных.

— Sebastiaan
источник