В машинном обучении модель с параметрами и гиперпараметрами выглядит так:M
Y≈ МЧАС( Φ | D )
где - параметры, а - гиперпараметры. - данные обучения, а - выходные данные (метки классов в случае задачи классификации).H D YΦЧАСDY
Цель во время обучения - найти оценку параметров которая оптимизирует некоторую функцию потерь мы указали. Поскольку модель и функция потерь основаны на , то последующие параметры также зависят от гиперпараметров . лМЛНΦНΦ^LMLЧАСΦЧАС
Гиперпараметры не «изучаются» во время обучения, но не означают, что их значения неизменны. Как правило, гиперпараметры фиксированы, и мы думаем просто о модели , а не . Здесь гиперпараметры также могут рассматриваться как априорные параметры. M M HЧАСMMЧАС
Источником путаницы является использование и модификация гиперпараметров во время тренировочной программы в дополнение к, очевидно, параметрам . Потенциально есть несколько причин, чтобы изменить во время обучения. Примером может быть изменение скорости обучения во время обучения для повышения скорости и / или стабильности процедуры оптимизации. Н Φ НMЧАСЧАСΦ^ЧАС
Важным отличием является то, что результат, скажем, предсказание метки, , основан на параметрах модели а не на гиперпараметрах . Φ HYп р д дΦЧАС
Различие, однако, имеет предостережения и, следовательно, линии размыты. Рассмотрим, например, задачу кластеризации, а именно моделирование гауссовой смеси (GMM). Здесь задаются следующие параметры: , где - это набор из кластерных средств, а - из стандартные отклонения, для гауссовых ядер.ˉ μ N ˉ σ N NΦ = { μ¯, σ¯}μ¯Nσ¯NN
Вы, возможно, интуитивно распознали гиперпараметр здесь. Это число кластеров . Итак, . Как правило, проверки кластера используются для определения априорно, используя небольшую подвыборку данных . Тем не менее, я мог бы также изменить свой алгоритм обучения моделей гауссовой смеси, чтобы изменить количество ядер во время обучения, основываясь на некотором критерии. В этом сценарии гиперпараметр становится частью набора параметров .H = { N } N D N N Φ = { ˉ μ , ˉ σ , N }NH ={N}NDNNΦ = { μ¯, σ¯, N}
Тем не менее, следует отметить, что результат, или прогнозируемое значение, для точек данных в данном основан на , а не . То есть каждое из гауссовых ядер будет вносить некоторое значение вероятности в на основе расстояния от их соответствующего и их собственной . «Параметр» здесь явно не задействован, поэтому он, возможно, не «действительно» является параметром модели.D G M M ( ˉ μ , ˉ σ ) N N d d μ σ NdDG MM( μ¯, σ¯)NNddμσN
Резюме: различие между параметрами и гиперпараметрами нюансировано из-за того, как они используются практиками при разработке модели и функции потерь . Я надеюсь, что это помогает разногласия между этими двумя терминами.LML