История:
Моя бабушка ходит, но не лезет. Некоторые бабушки делают. Одна бабушка была известна скалолазанием Килиманджаро .
Этот спящий вулкан велик. Это 16 000 футов над его основанием. (Не ненавидь мои имперские части.) Иногда на вершине также есть ледники.
Если вы взбираетесь на год, когда ледника нет, и вы попадаете на вершину, это такая же вершина, как если бы был ледник? Высота отличается. Путь, по которому вы должны идти, отличается. Что если вы пойдете на вершину, когда толщина ледника будет больше? Это делает это большим достижением? Около 35 000 человек пытаются подняться на него каждый год, но только около 16 000 человек добиваются успеха.
Приложение:
Итак, я бы объяснил моей бабушке контроль весов (он же минимизирует сложность модели) следующим образом:
Бабушка, твой мозг - удивительный мыслитель, знаешь ли ты это или нет. Если я спрошу вас, сколько из 16 000, которые думают, что достигли вершины, на самом деле так и сделали, вы бы сказали «все».
Если бы я поместил датчики в обувь всех 30 000 альпинистов и измерил высоту над уровнем моря, то некоторые из этих людей не поднялись бы так высоко, как другие, и могли бы не соответствовать требованиям. Когда я делаю это, я иду к постоянной модели - я говорю, что если высота не равна некоторому процентилю измеренных максимальных высот, то это не вершина. Некоторые люди прыгают на вершине. Некоторые люди просто пересекают черту и садятся.
Я мог бы добавить широту и долготу к датчику и подобрать некоторые уравнения более высокого порядка, и, возможно, я мог бы получить лучшую подгонку, и у меня было бы больше людей, может быть, даже ровно 45% от общего числа людей, которые пытаются это сделать.
Итак, скажем, следующий год - это год "большого ледника" или года "без ледника", потому что какой-то вулкан действительно трансформирует альбедо Земли. Если я возьму свою сложную и требовательную модель из этого года и применил ее к людям, которые поднимаются в следующем году, модель получит странные результаты. Может быть, все "пройдут" или даже будут слишком высокими, чтобы пройти. Может быть, никто вообще не пройдет, и он подумает, что на самом деле никто не завершил восхождение. Особенно, когда модель сложная, она не будет обобщать. Он может в точности соответствовать данным «обучения» за этот год, но когда поступают новые данные, он ведет себя плохо.
Обсуждение:
Когда вы ограничиваете сложность модели, обычно вы можете получить лучшее обобщение без чрезмерной подгонки. Использование более простых моделей, построенных с учетом реальных изменений, дает лучшие результаты, при прочих равных условиях.
Теперь у вас есть фиксированная топология сети, поэтому вы говорите «мой счетчик параметров фиксирован» - у меня не может быть вариаций в сложности модели. Ерунда. Измерьте энтропию в весах. Когда энтропия выше, это означает, что некоторые коэффициенты несут существенно большую «информативность», чем другие. Если у вас очень низкая энтропия, это означает, что в целом коэффициенты имеют одинаковый уровень «информативности». Информативность не обязательно хорошая вещь. При демократии вы хотите, чтобы все люди были равны, а такие вещи, как Джордж Оруэлл, «более равный, чем другие», являются мерой неудач системы. Если у вас нет веских причин для этого, вы хотите, чтобы веса были очень похожи друг на друга.
От себя лично: вместо использования вуду или эвристики я предпочитаю такие вещи, как «критерии информации», потому что они позволяют мне получать надежные и последовательные результаты. AIC , AICc и BIC - некоторые общие и полезные отправные точки. Повторение анализа для определения стабильности решения или диапазона результатов информационных критериев является распространенным подходом. Можно взглянуть на потолок энтропии в весах.