Меры сложности модели


19

Как мы можем сравнить сложность двух моделей с одинаковым количеством параметров?

Изменить 09/19 : Чтобы уточнить, сложность модели является мерой того, насколько трудно учиться на ограниченных данных. Когда две модели в равной степени соответствуют существующим данным, модель с меньшей сложностью даст меньшую ошибку в будущих данных. Когда используются аппроксимации, технически это не всегда может быть правдой, но это нормально, если это имеет место на практике. Различные приближения дают разные меры сложности


Можете ли вы дать больше информации о том, какие атрибуты доступны о моделях?
Шаббычеф

Это своего рода открытый вопрос, поэтому мой вопрос будет такой: какие атрибуты мне нужны для измерения сложности? На самом базовом уровне вероятностная модель - это набор распределений вероятностей, и я подгоняю модель к данным, выбирая наиболее подходящего члена
Ярослава Булатова,

3
Что именно "сложность"? (Это не легкомысленный вопрос!) В отсутствие формального определения мы не можем надеяться на достоверное сравнение чего-либо.
whuber

Это то, что я спрашиваю по существу
Ярослав Булатов

2
Но не могли бы вы хотя бы намекнуть, какой аспект модели вы пытаетесь охватить словом «сложность»? Без этого этот вопрос является лишь двусмысленным, чтобы признать один разумный ответ.
whuber

Ответы:


12

Помимо различных показателей минимальной длины описания (например, нормализованной максимальной вероятности, аппроксимации информации Фишера), есть два других метода, которые стоит упомянуть:

  1. Параметрический Bootstrap . Это намного легче осуществить, чем требовательные меры MDL. Хорошая статья принадлежит Wagenmaker и его коллегам:
    Wagenmakers, E.-J., Ratcliff R., Gomez, P. & Iverson, GJ (2004). Оценка модели мимикрии с помощью параметрической начальной загрузки . Журнал математической психологии , 48, 28-50.
    Аннотация:

    Мы представляем общую процедуру выборки для количественной оценки мимикрии модели, определяемой как способность модели учитывать данные, сгенерированные конкурирующей моделью. Эта процедура выборки, называемая параметрическим методом кросс-аппроксимации начальной загрузки (PBCM; ср. Williams (JR Statist. Soc. B 32 (1970) 350; Biometrics 26 (1970) 23)), генерирует распределения различий в пригодности соответствия ожидается под каждой из конкурирующих моделей. В версии PBCM, основанной на данных, модели генерации имеют конкретные значения параметров, полученные путем подгонки рассматриваемых экспериментальных данных. Распределение различий между данными и данными можно сравнить с наблюдаемой разницей в соответствии качества, чтобы дать количественную оценку адекватности модели. В данных неинформированной версии PBCM, генерирующие модели имеют относительно широкий диапазон значений параметров, основанных на предшествующих знаниях. Применение как информированных данных, так и данных неинформированных PBCM иллюстрируется несколькими примерами.

    Обновление: Оценка модели мимикрии на простом английском языке. Вы берете одну из двух конкурирующих моделей и случайным образом выбираете набор параметров для этой модели (либо данные, информированные, либо нет). Затем вы производите данные из этой модели с выбранным набором параметров. Затем вы позволяете обеим моделям соответствовать полученным данным и проверяете, какая из двух моделей-кандидатов дает лучшее соответствие. Если обе модели одинаково гибки или сложны, модель, из которой вы произвели данные, должна лучше соответствовать. Однако, если другая модель является более сложной, она могла бы лучше соответствовать, хотя данные были получены из другой модели. Вы повторяете это несколько раз для обеих моделей (т. Е. Пусть обе модели выдают данные и смотрят, какая из двух подходит лучше). Модель, которая «перекрывает» данные, полученные другой моделью, является более сложной.

  2. Перекрестная проверка : это также довольно легко реализовать. Смотрите ответы на этот вопрос . Тем не менее, обратите внимание, что проблема заключается в том, что выбор из правила вырезания выборки (оставлять один, K-сгиб и т. Д.) Является беспринципным.


Я не очень понимаю «мимику модели», но перекрестная проверка, похоже, просто откладывает задачу оценки сложности. Если вы используете данные для выбора своих параметров и вашей модели, как при перекрестной проверке, то возникает вопрос: как оценить объем данных, необходимых для того, чтобы этот мета-монтажник работал хорошо
Ярослав Булатов,

@ Ярослав: Я не совсем понимаю вашу проблему с перекрестной проверкой, но, честно говоря, я не эксперт там. Тем не менее, я действительно хотел бы обратить внимание на измерение подражания модели. Поэтому смотрите мой обновленный ответ.
Хенрик

4

Я думаю, что это будет зависеть от фактической процедуры подгонки модели. Для общепринятой меры вы можете рассмотреть Обобщенные степени свободы, описанные в Ye 1998 - по существу, чувствительность изменения оценок модели к возмущению наблюдений - которая довольно хорошо работает как мера сложности модели.


Хм ... статья посвящена регрессии, интересно, может ли это быть использовано для оценки дискретной вероятности. Кроме того, я не совсем понимаю, почему он это мотивирует - gdf - это степень чувствительности параметров к небольшим изменениям данных, но почему это важно? Я мог бы выбрать другую параметризацию, где небольшие изменения параметров в исходной параметризации соответствуют большим изменениям в новой параметризации, поэтому она будет казаться более чувствительной к данным, но это та же модель
Ярослав Булатов,

Ярослав:> * Я мог бы выбрать другую параметризацию, где небольшие изменения параметров в исходной параметризации соответствуют большим изменениям в новой параметризации, так что это будет казаться более чувствительным к данным * Можете ли вы привести пример (с использованием аффинно-эквивариантной оценки)? Спасибо,
user603

1
DoF в линейной регрессии работает на основе матрицы шляп или суммы чувствительности, поэтому мотивация / концепция не так уж и далеки. Tibshirani & Knight предложили Covariance Inflation Criterion, который рассматривает ковариации модельных оценок вместо чувствительности. GDF, по-видимому, применялся во многих модельных процедурах, таких как пороговая привязка к корзине и вейвлет (в статье Е. об адаптивном выборе моделей есть больше деталей), и в ансамблевых методах для контроля сложности, но я не знаю ни одного случая дискретной оценки. Может быть , стоит попробовать ...
АРС

Не знаю о «аффинно-эквивариантных оценках», но предположим, что вместо этого мы полагаемся на оценку максимального правдоподобия. Пусть q = f (p), где f некоторая биекция. Пусть p0, q0 представляют оценку MLE в соответствующей параметризации. p0, q0 будут иметь разные асимптотические дисперсии, но с точки зрения данных моделирования они эквивалентны. Таким образом, вопрос сводится к тому, в какой параметризации чувствительность параметров отражает ожидаемый риск?
Ярослав Булатов

4

Минимальная длина описания (MDL) и минимальная длина сообщения (MML), безусловно, стоит проверить.

Что касается MDL, простой документ, который иллюстрирует процедуру нормализованного максимального правдоподобия (NML), а также асимптотическое приближение:

S. de Rooij & P. ​​Grünwald. Эмпирическое исследование выбора модели минимальной длины описания с бесконечной параметрической сложностью. Журнал математической психологии, 2006, 50, 180-192

Здесь они смотрят на сложность модели распределения геометрических и пуассоновских. Отличный (бесплатный) учебник по MDL можно найти здесь .

Кроме того , документ о сложности экспоненциального распределения рассматриваемого как с MML и MDL можно найти здесь . К сожалению, не существует современного учебника по MML, но книга является отличным справочником и настоятельно рекомендуется.


1
Я читал эту статью, и кажется, что Стохастическая сложность решает проблему неспособности различать модели с одинаковыми измерениями, но порой вызывает проблему невозможности различить модели разных размеров. Геометрическому распределению присваивается бесконечная сложность, конечно, не то, что мы ожидали бы для такой простой модели!
Ярослав Булатов

Очень хороший момент о бесконечной стохастической сложности (SC). Решения проблемы бесконечного SC существуют, но не очень изящны; Перенормировка Риссанена хорошо работает в линейных моделях, но это нелегко сделать для задачи Пуассона / Геометрии. MML (или SMML) кодирование пуассоновских / геометрических данных хорошо, хотя.
Emakalic

3

Минимальное описание Длина может быть авеню, которую стоит преследовать.


2
Небольшое примечание: минимальная длина описания очень полезна и полезна, но для получения результатов может потребоваться много времени, особенно при использовании нормализованного максимального правдоподобия со всего лишь большими наборами данных. Однажды мне потребовалось 10 дней, чтобы запустить код FORTRAN, чтобы получить его только для одной модели
Дейв Келлен,

2

Под «сложностью модели» обычно подразумевается богатство модельного пространства. Обратите внимание, что это определение не зависит от данных. Для линейных моделей богатство модельного пространства тривиально измеряется с уменьшением пространства. Это то, что некоторые авторы называют «степенями свободы» (хотя исторически, степени свободы были зарезервированы для различия между пространством модели и пространством образца). Для нелинейных моделей количественная оценка богатства пространства менее тривиальна. Обобщенные степени свободы (см. Ответ ars) - такая мера. Он действительно очень общий и может использоваться для любого «странного» модельного пространства, такого как деревья, KNN и тому подобное. Измерение ВК является еще одной мерой.

Как упомянуто выше, это определение «сложности» не зависит от данных. Таким образом, две модели с одинаковым количеством параметров обычно имеют одинаковую «сложность».


1

От комментариев Ярослава к ответу Хенрика:

но перекрестная проверка, похоже, просто откладывает задачу оценки сложности. Если вы используете данные для выбора своих параметров и модели, как при перекрестной проверке, то возникает вопрос: как оценить объем данных, необходимый для правильной работы мета-установщика?

КККСВ(К)КК

Вы могли бы даже придать этому «значимость», поскольку результат процедуры напрямую выражается в единицах (единицах) разницы в погрешности прогнозирования вне выборки.


1
Я бы согласился, что перекрестная проверка решает проблему измерения сложности модели. Может быть, я задаю неправильный вопрос, потому что практический вопрос - это сложность примера процедуры подбора. Учащийся, прошедший перекрестную проверку, попробует разные модели и выберет модель с наименьшей ошибкой перекрестной проверки. Теперь вопрос заключается в том, является ли этот ученик более подходящим, чем тот, который соответствует максимальной модели?
Ярослав Булатов

Ярослав Булатов:> Да, но вы можете использовать ML только для сравнения вложенных моделей. Поскольку вы указали (в своем вопросе) упомянутые модели с одинаковым количеством параметров, то они не могут быть вложенными.
user603 21.09.10

Другая проблема заключается в том, что перекрестная проверка не добавляет нам понимания сложности модели. Такие меры, как AIC / BIC, дают понять, что многие параметры способствуют переоснащению. Теперь возникает вопрос - какие аспекты модели помимо измерения увеличивают способность к переоснащению?
Ярослав Булатов

Ярослав:> Опять очень хороший момент.
user603 21.09.10

Если переоснащение является тенденцией процедуры подбора модели, чтобы соответствовать шуму в дополнение к сигналу, то мы можем посмотреть на данную процедуру, чтобы увидеть, где могут возникнуть такие тенденции. Возможно, из-за недостатка воображения или знаний, рассматривая несколько различных процедур, я не мог свести это к чему-то, что не может быть переформулировано как «количество параметров» (или «эффективное количество параметров»). Мы могли бы перевернуть это с ног на голову и спросить: при прочих равных условиях, что происходит, когда мы вводим шум в наши данные? Затем мы приходим к таким мерам, как Ye's GDF.
АРС

0

Как насчет информационного критерия для сравнения моделей? Смотрите, например, http://en.wikipedia.org/wiki/Akaike_information_criterion

Сложность модели - вот количество параметров модели.


AIC не является мерой сложности модели.
Свен Хоэнштейн

@SvenHohenstein, из его последнего предложения, я понимаю , что он не предполагает , что АИК сам , является мерой сложности модели. Браузе42, обратите внимание, что вопрос конкретно задает о моделях с одинаковым количеством параметров. Таким образом, AIC уменьшится до SSE или отклонения, или чего-то еще.
gung - Восстановить Монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.