Моделирование, когда зависимая переменная имеет «отсечение»

Заранее извиняюсь, если какая-либо терминология, которую я использую, неверна. Я бы приветствовал любое исправление. Если то, что я называю «отсечкой», носит другое имя, дайте мне знать, и я смогу обновить вопрос.

Интересующая меня ситуация такова: у вас есть независимые переменные и одна зависимая переменная . Я оставлю это расплывчатым, но предположим, что было бы относительно просто получить хорошую модель регрессии для этих переменных. $\bf{x}$ $y$

Однако модель, которую вы намереваетесь создать, предназначена для независимых переменных и зависимой переменной , где - это некоторое фиксированное значение в диапазоне . Точно так же данные, к которым у вас есть доступ, не включают , только . $\bf{x}$ $w = \min(y,a)$ $a$ $y$ $y$ $w$

(Несколько нереалистичным) примером этого может быть, если вы пытаетесь смоделировать, сколько лет люди будут получать пенсию. В этом случае $\bf{x}$ может быть релевантной информацией, такой как пол, вес, количество часов занятий в неделю и т. Д. «Базовая» переменная $y$ это ожидаемая продолжительность жизни. Однако переменная, к которой у вас будет доступ и которую вы пытаетесь предсказать, в вашей модели будет равна $w = \min(0, y-r)$ где r - возраст выхода на пенсию (если для простоты он фиксирован).

Есть ли хороший подход для решения этой проблемы в регрессионном моделировании?

— Бен Ааронсон
источник

Я не уверен, но это звучит так, как будто это может быть достигнуто через некоторые вариации анализа выживания. 1) Это включает в себя цензуру 2) По крайней мере, в вашем примере, это вовлекает время. Но это будет подвергаться цензуре слева, а не справа (что более распространено). Если вы согласны со мной, вы можете добавить тег выживания и посмотреть, прыгнет ли кто-нибудь на нем.

— Питер Флом - Восстановить Монику

@Peter Это, конечно, выглядит для меня цензурой. С какой стороны происходит цензура, мало что значит, потому что, отрицая зависимую переменную, можно переключаться между правой и левой цензурой.

— whuber

@whuber Я думаю, ты прав. Но, как вы говорите, цензура может переключаться достаточно легко.

— Питер Флом - Восстановить Монику

Пример выхода на пенсию, кажется, требует модели данных подсчета (если вы хотите округлить до целых лет и до тех пор, пока все не умрут к моменту запуска анализа). Подход со скрытой переменной кажется растянутым, поскольку время не может быть отрицательным.

— Дмитрий Владимирович Мастеров

Этот тип модели имеет несколько названий, в зависимости от дисциплины и тематической области. Распространенными названиями для него являются цензурированные зависимые переменные, усеченные зависимые переменные, ограниченные зависимые переменные, анализ выживания, Tobit и цензурированная регрессия. Я, вероятно, опускаю несколько других имен.

Настройка, которую вы предлагаете, где наблюдается, называется "правая цензура", потому что значения слишком далеко вправо на реальной линии подвергаются цензуре - и вместо этого мы просто видим точку цензуры, . $\min\{y_i,a\}$ $y_i$ $a$

Один из способов справиться с такими данными - использовать скрытые переменные (и это в основном то, что вы предлагаете). Вот один из способов продолжить:

\begin{aligned} y_{i} & = x_{i}^{'} β + ε_{i} \\ w_{i} & = min {y_{i}, a} \\ ε_{i} & \sim N (0, σ^{2}) i i d \end{aligned}

$\begin{align} y_i &= x_i'\beta+\varepsilon_i\\ w_i &= \min\{y_i, a\}\\ \varepsilon_i &\sim N(0,\sigma^2)\; \ {\rm iid} \end{align}$

Затем вы можете проанализировать это по максимальной вероятности. Наблюдения, в которых происходит цензура, вносят вклад в функцию правдоподобия, а наблюдения, в которых цензура не происходит, вносят вклад до функции правдоподобия. CDF стандартной нормы - а плотность стандартной нормы - . Итак, функция правдоподобия выглядит так: $P\{y_i>a\}=\Phi(\frac{1}{\sigma}x_i'\beta-a)$ $\frac{1}{\sigma}\phi((y_i-x_i'\beta)/\sigma)$ $\Phi$ $\phi$

\begin{aligned} L (β, σ) & = \prod_{i \in censored} Φ (\frac{1}{σ} x_{i}^{'} β - a) \prod_{i \notin censored} \frac{1}{σ} ϕ ((y_{i} - x_{i}^{'} β) / σ) \end{aligned}

$\begin{align} L(\beta,\sigma) &= \prod_{i\ \in\ \text{censored}} \Phi\left(\frac{1}{\sigma}x_i'\beta-a\right) \prod_{i\ \not\in\ \text{censored}} \frac{1}{\sigma}\phi\big((y_i-x_i'\beta)/\sigma\big) \end{align}$

Вы оцениваете и , максимизируя это. Вы получаете стандартные ошибки как обычные ошибки с максимальным правдоподобием. $\beta$ $\sigma$

Как вы можете себе представить, это всего лишь один из многих подходов.

— Билл
источник

+1 Рабочий пример решения ML доступен по адресу stats.stackexchange.com/questions/49443 .

— whuber

@whuber Это хорошая экспозиция.

— Билл