Большинство процедур оценки включают в себя поиск параметров, которые минимизируют (или максимизируют) некоторую целевую функцию. Например, с OLS мы минимизируем сумму квадратов невязок. При оценке максимального правдоподобия мы максимизируем функцию логарифмического правдоподобия. Разница тривиальна: минимизация может быть преобразована в максимизацию с помощью отрицательного значения целевой функции.
Иногда эта проблема может быть решена алгебраически, давая решение в замкнутой форме. С OLS вы решаете систему условий первого порядка и получаете знакомую формулу (хотя вам все еще, вероятно, нужен компьютер для оценки ответа). В других случаях это невозможно математически, и вам необходимо искать значения параметров с помощью компьютера. В этом случае компьютер и алгоритм играют большую роль. Нелинейные наименьшие квадраты - один из примеров. Вы не получите явную формулу; все, что вы получите, это рецепт, который вам нужен компьютер для реализации. Рецепт может быть начат с первоначального предположения о том, какими могут быть параметры и как они могут варьироваться. Затем вы пробуете различные комбинации параметров и видите, какой из них дает вам наименьшее / наибольшее значение целевой функции. Это подход грубой силы и занимает много времени. Например,105 комбинаций, и это просто ставит вас рядом с правильным ответом, если вам повезет. Этот подход называется поиском по сетке.
Или вы можете начать с догадки и уточнить ее в некотором направлении, пока улучшения целевой функции не станут меньше некоторого значения. Они обычно называются градиентными методами (хотя есть и другие, которые не используют градиент для выбора направления движения, например, генетические алгоритмы и имитация отжига). Некоторые проблемы, подобные этой, гарантируют, что вы быстро найдете правильный ответ (квадратичные целевые функции). Другие не дают такой гарантии. Вы можете беспокоиться о том, что застряли на локальном, а не глобальном оптимуме, поэтому попробуйте различные начальные предположения. Вы можете обнаружить, что совершенно разные параметры дают одинаковое значение целевой функции, поэтому вы не знаете, какой набор выбрать.
Вот хороший способ получить интуицию. Предположим, у вас была простая модель экспоненциальной регрессии, где единственным регрессором является перехват:
E[y]=exp{α}
функцией является
QN(α)=−12N∑iN(yi−exp{α})2
С этой простой проблемой возможны оба подхода. Решение в замкнутой форме, которое вы получите, взяв производную: . Вы также можете проверить, что все остальное дает вам более высокое значение целевой функции, подключив вместо этого . Если у вас было несколько регрессоров, аналитическое решение вылетает в окно. ln ( ˉ y + k )α∗=lny¯ln(y¯+k)