Оценка экспоненциальной модели

10

Экспоненциальная модель - это модель, описываемая следующим уравнением:

\hat{y_{i}} = β_{0} \cdot e^{β_{1} x_{1 i} + \dots + β_{k} x_{k i}}

$\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}}$

Наиболее распространенным подходом, используемым для оценки такой модели, является линеаризация, которая может быть легко выполнена путем вычисления логарифмов обеих сторон. Каковы другие подходы? Меня особенно интересуют те, которые могут обрабатывать в некоторых наблюдениях. $y_{i}=0$

Обновление 31.01.2011
Мне известно о том, что эта модель не может производить ноль. Я немного поясню, что я моделирую и почему я выбираю эту модель. Допустим, мы хотим предсказать, сколько денег клиент тратит в магазине. Конечно, многие клиенты просто смотрят и ничего не покупают, поэтому их 0. Я не хотел использовать линейную модель, потому что она выдает много отрицательных значений, что не имеет никакого смысла. Другая причина в том, что эта модель работает действительно хорошо, намного лучше, чем линейная. Я использовал генетический алгоритм для оценки этих параметров, поэтому это не был «научный» подход. Теперь я хотел бы знать, как бороться с проблемой, используя более научные методы. Можно также предположить, что большинство или даже все переменные являются двоичными переменными.

estimation nonlinear-regression

— Томек Тарчинский
источник

1

если в ваших данных есть нули, экспоненциальная регрессия может не подходить, так как модель, как вы заявили, не может позволить наблюдать нулевые значения.

— mpiktas

11

Здесь есть несколько вопросов.

(1) Модель должна быть явно вероятностной . Почти во всех случаях не будет не набор параметров , для которых л.ш. соответствует РИТ для всех ваших данных: будет невязки. Вы должны сделать предположения об этих остатках. Вы ожидаете, что они будут равны нулю в среднем? Быть симметрично распределенным? Быть примерно нормально распределенным?

Вот две модели, которые согласуются с указанной, но допускают резко отличающееся остаточное поведение (и, следовательно, обычно приводят к различным оценкам параметров). Вы можете варьировать эти модели, изменяя предположения о совместном распространении : $\epsilon_{i}$

A: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i} + ϵ_{i})

$\text{A:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki} + \epsilon_{i}\right)}$

B: y_{i} = β_{0} \exp (β_{1} x_{1 i} + \dots + β_{k} x_{k i}) + ϵ_{i} .

$\text{B:}\ y_{i} =\beta_{0} \exp{\left(\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}\right)} + \epsilon_{i}.$

(Обратите внимание, что это модели для данных ; обычно не существует такого понятия, как оценочное значение данных .) $y_i$ $\hat{y_i}$

(2) Необходимость обработки нулевых значений для y подразумевает, что заявленная модель (A) является неправильной и неадекватной , поскольку она не может дать нулевое значение независимо от того, какой случайной ошибке равна. Вторая модель выше (B) допускает нулевые (или даже отрицательные) значения y. Однако не следует выбирать модель исключительно на такой основе. Повторим # 1: важно достаточно хорошо смоделировать ошибки.

(3) Линеаризация меняет модель . Как правило, это приводит к таким моделям, как (A), но не как (B). Он используется людьми, которые достаточно проанализировали свои данные, чтобы знать, что это изменение не окажет заметного влияния на оценки параметров, и людьми, которые не знают о том, что происходит. (Много раз трудно различить разницу.)

(4) Распространенный способ обработки возможности нулевого значения состоит в том, чтобы предложить (или некоторому его повторному выражению, например квадратному корню) строго положительный шанс равного нулю. Математически мы смешиваем точечную массу («дельта-функцию») с некоторым другим распределением. Эти модели выглядят так: $y$

\begin{aligned} f (y_{i}) & \sim F (θ); \\ θ_{j} & = β_{j 0} + β_{j 1} x_{1 i} + \dots + β_{j k} x_{k i} \end{aligned}

$\eqalign{ f(y_i) &\sim F(\mathbf{\theta}); \cr \theta_j &= \beta_{j0} + \beta_{j1} x_{1i} + \cdots + \beta_{jk} x_{ki} }$

где - один из параметров, неявных в векторе , - некоторое семейство параметризованных распределений by , и - это повторное выражение 's (функция "link" обобщенной линейной модели: см. ответ onetop). (Конечно, тогда = когда ) Примеры модели Пуассона и отрицательного бинома с нулевой раздувкой . $\Pr_{F_\theta}[f(Y) = 0] = \theta_{j+1} \gt 0$ $\mathbf{\theta}$ $F$ $\theta_1, \ldots, \theta_j$ $f$ $y$ $\Pr_{F_\theta}[f(Y) \le t]$ $(1 - \theta_{j+1})F_\theta(t)$ $t \ne 0$

(5) Проблемы построения модели и ее подгонки связаны, но различны . В качестве простого примера, даже обычная регрессионная модель может быть подогнана разными способами с помощью наименьших квадратов (что дает такие же оценки параметров, как максимальное правдоподобие и почти такие же стандартные ошибки), итеративно переоцененные наименьшие квадраты , различные другие формы « надежных наименьших квадратов » и т. д. Выбор подгонки часто основан на удобстве, целесообразности ( например , наличии программного обеспечения), фамильярности, привычке или соглашении, но, по крайней мере, следует подумать с учетом того, что подходит для предполагаемого распределения условий ошибки , для чего $Y = \beta_0 + \beta_1 X + \epsilon$ $\epsilon_i$ Функция потерь для проблемы может быть разумно, и с возможностью использования дополнительной информации (например, предварительное распределение для параметров).

— Whuber
источник

10

Это обобщенная линейная модель (GLM) с функцией логарифмической связи .

Любое распределение вероятностей на с ненулевой плотностью в нуле будет обрабатывать в некоторых наблюдениях; наиболее распространенным было бы распределение Пуассона, приводящее к регрессии Пуассона , или лог-линейному моделированию. Другим выбором будет отрицательное биномиальное распределение . $[0,\infty)$ $y_i=0$

Если у вас нет данных подсчета или если принимает нецелые значения, вы все равно можете использовать каркас обобщенных линейных моделей без полного указания распределения для но вместо этого только указание отношения между его средним и дисперсией с использованием квази-правдоподобия . $y_i$ $\operatorname{P}(y_i|\bf{x})$

— универсальный
источник

Жаль, что меня не учили об этом в университете: / Похоже, это будет полезно в этом случае, но мне нужно некоторое время, чтобы углубиться в детали. Спасибо!

— Томек Тарчински

Обратите внимание, что всегда можно изменить до целочисленных значений, когда это рационально, например, измерить пенсы / центы, а не фунты / доллары. Хотя в любом случае вы можете захотеть округлить до ближайшего фунта / доллара, поскольку распределение части цены пенса / цента цены товара, вероятно, будет очень неравномерным (т.е. в основном 99).

y_{i}

$y_i$

— Джеймс

3

Вы всегда можете использовать нелинейные наименьшие квадраты . Тогда ваша модель будет:

y_{i} = β_{0} \exp (β_{1} x_{1 i} + . . . + β_{k} x_{k i}) + ε_{i}

$y_i=\beta_0\exp(\beta_1x_{1i}+...+\beta_kx_{ki})+\varepsilon_i$

Тогда нули в будут рассматриваться как отклонения от нелинейного тренда. $y_i$

— mpiktas
источник

Как насчет начальных значений параметров? Какой хороший способ выбрать их? Как я уже говорил в обновлении, можно предположить, что нет непрерывных переменных.

— Томек Тарчински

@ Томек, я думаю, что нет единого способа выбрать их. Обычно это зависит от данных. Я предлагаю среднее значение для перехвата и ноль для других коэффициентов.

— mpiktas