Ответы:
Я никогда не сталкивался с этим термином раньше. Я не уверен, распространит ли он свет или тьму в пределах одной области статистики: это машинное обучение (где контролируемые и неконтролируемые различия имеют решающее значение для решения проблем) и логическая статистика (где чаще всего используются регрессия, подтверждающий анализ и NHST).
Там, где эти две философии пересекаются, большая часть регрессии и связанной с ней терминологии отбрасывается в строго контролируемой обстановке. Тем не менее, я думаю, что многие существующие концепции в обучении без учителя тесно связаны с подходами, основанными на регрессии, особенно когда вы наивно просматриваете каждый класс или функцию как результат и объединяете результаты. Примером этого является PCA и двумерный корреляционный анализ. Итеративно применяя регрессию наилучшего подмножества для ряда переменных, вы можете выполнить очень сложный вид оценки сети, как это предполагается при моделировании структурных уравнений (строго в смысле EFA). Мне это кажется неконтролируемой проблемой обучения с регрессией.
Самая близкая вещь, о которой я могу думать, - это небольшая черная магия, которая взволновала людей, когда это было объявлено несколько лет назад, но я не верю, что она получила какую-то реальную популярность в сообществе. Авторы разработали статистику, которую они назвали «Максимальный информационный коэффициент (MIC)». Общая идея их метода состоит в том, чтобы взять многомерные данные, построить каждую переменную против каждой другой переменной попарно, а затем применить интересный алгоритм объединения окон к каждому графику (который вычисляет MIC для этих двух переменных), чтобы определить, есть ли потенциально связь между двумя переменными. Предполагается, что методика является надежной при идентификации произвольно структурированных отношений , а не только линейных.
Техника предназначена для пар переменных, но я уверен, что она может быть расширена для изучения многомерных отношений. Основная проблема заключается в том, что вам придется запускать технику на значительно большем количестве комбинаций переменных, поскольку вы допускаете перестановки большего и большего количества переменных. Я полагаю, что это, вероятно, займет некоторое время только для пар: попытка использовать это даже для данных с очень большими измерениями и рассмотрение более сложных отношений, чем пары переменных, быстро станет неразрешимой.
Ссылка на статью « Обнаружение новых ассоциаций в больших наборах данных» (2011)
Этот вопрос возник у меня во время исследования различий между контролируемыми и неконтролируемыми методами. Исходя из эконометрического фона, я предпочитаю думать в моделях, что замедляло мое понимание, так как большая часть литературы по машинному обучению, с которой я столкнулся, фокусируется на методах.
До сих пор я обнаружил, что следует проводить строгое различие между clustering
(без присмотра) и classification
(под наблюдением). Непрерывная аналогия связи между этими модельными проектами будет principal component analysis
(без надзора) против linear regression
(под надзором).
Однако я бы сказал, что связь между кластеризацией и классификацией является чисто случайной; он существует только тогда, когда мы интерпретируем оба дизайна модели как описание геометрического отношения, которое я считаю излишне ограничительным. Все известные мне неконтролируемые методы (k-средства, алгоритмы упругой карты, такие как когонен / нейронный газ, DBSCAN, PCA) также можно интерпретировать как модели скрытых переменных. В случае методов кластеризации это будет означать просмотр принадлежности к кластеру как находящегося в состоянии, которое может быть закодировано как модель скрытой переменной путем введения фиктивных состояний.
Учитывая интерпретацию как модели скрытых переменных, вы можете указать любую, возможно, нелинейную модель, которая описывает ваши функции в терминах непрерывных скрытых переменных.