За счет чрезмерного упрощения скрытые функции являются «скрытыми», чтобы отличать их от наблюдаемых. Скрытые признаки вычисляются из наблюдаемых признаков с использованием матричной факторизации. Примером может служить анализ текстовых документов. «слова», извлеченные из документов, являются особенностями. Если вы анализируете данные слов, вы можете найти «темы», где «тема» - это группа слов с семантической релевантностью. Факторизация низкого ранга отображает несколько строк (наблюдаемые признаки) в меньший набор строк (скрытые признаки). Чтобы уточнить, в документе могли быть обнаружены такие особенности (слова), как [парусная лодка, шхуна, яхта, пароход, крейсер], которые «разлагались» на скрытые элементы (тему), такие как «корабль» и «лодка».
[парусник, шхуна, яхта, пароход, крейсер, ...] -> [корабль, лодка]
Основная идея заключается в том, что скрытые признаки являются семантически значимыми «совокупностями» наблюдаемых признаков. Если у вас есть крупномасштабные, крупномасштабные и шумные наблюдаемые объекты, имеет смысл построить ваш классификатор на скрытых функциях.
Это, конечно, упрощенное описание для разъяснения концепции. Для получения точного описания вы можете прочитать подробности о модели скрытого распределения по Дирихле (LDA) или вероятностного анализа скрытого семантического анализа (pLSA).