Объяснение модели тобита

13

У нас 100 участников в двух группах, $n=50$ в каждой группе. Мы использовали оценку способности базового функционирования в 4 момента времени. Оценка состоит из 6 вопросов, каждый из которых набрал 0–5 баллов. У нас нет индивидуальных баллов по каждому вопросу, только общие баллы от 0 до 30. Более высокие баллы указывают на лучшее функционирование. Проблема в том, что оценка является очень базовой и имеет значительный потолочный эффект. Результаты очень негативно искажены. Большинство участников набрали около 30 баллов, особенно в 3 периода наблюдения. Вполне вероятно, что не все участники, набравшие максимальные баллы, по-настоящему равны в своих возможностях: некоторые участники набрали около 30 баллов, а другие с легкостью набрали 30 баллов, и если бы это было возможно, результаты были бы намного выше, поэтому данные цензура сверху.

Я хочу сравнить две группы и время, но, очевидно, это очень сложно, учитывая характер результатов. Любые преобразования не имеют значения. Мне сообщили, что модель Tobit лучше всего подходит для этой оценки, и я могу провести анализ в R, используя примеры из статьи Арне Хеннингена, Оценка регрессионных моделей с цензурой в R с использованием пакета censReg .

Однако у меня есть только базовые знания в области статистики, и я нашел информацию о модели Тобита довольно сложной. Мне нужно уметь объяснить эту модель простым языком, и я не могу найти простой язык, пояснения, что на самом деле делает модель Tobit и как. Может кто-нибудь объяснить модель Тобита или указать мне направление для удобочитаемой ссылки без сложных статистических и математических объяснений?

Очень благодарен за любую помощь

tobit-regression

— Адам
источник

8

Вики описывает модель Tobit следующим образом:

Y_{я} знак равно {\begin{cases} Y_{я}^{*} & если Y_{я}^{*} > 0 \\ 0 & если Y_{я}^{*} \leq 0 \end{cases}

$y_i = \begin{cases} y_i^* &\text{if} \quad y_i^* > 0 \\ \ 0 &\text{if} \quad y_i^* \le 0 \end{cases}$

Y_{я}^{*} знак равно β {Икс}_{я} + U_{я}

$y_i^* = \beta x_i + u_i$

U_{я} ~ N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

Я адаптирую приведенную выше модель к вашему контексту и предложу простую английскую интерпретацию уравнений, которая может оказаться полезной.

Y_{я} знак равно {\begin{cases} Y_{я}^{*} & если Y_{я}^{*} \leq 30 \\ 30 & если Y_{я}^{*} > 30 \end{cases}

$y_i = \begin{cases}\ y_i^* &\text{if} \quad y_i^* \le 30 \\ 30 &\text{if} \quad y_i^* > 30 \end{cases}$

Y_{я}^{*} знак равно β {Икс}_{я} + U_{я}

$y_i^* = \beta x_i + u_i$

U_{я} ~ N (0, σ^{2})

$u_i \sim N(0,\sigma^2)$

$y_i^*$

$y_i = 30 \quad \text{if} \quad y_i^* > 30$
$y_i = y_i^* \quad \text{if} \quad y_i^* \le 30$
$y_i^*$ $x_i$

Я надеюсь, что это полезно. Если какой-то аспект неясен, не стесняйтесь спрашивать в комментариях.

— Varty
источник

Варти, я очень ценю твой ответ. Это было очень полезно и очень быстро! Не уверен, что мне будет удобно объяснять это, но я буду продолжать читать. Если вы знаете какие-либо читаемые тексты на Tobit, пожалуйста, не стесняйтесь переслать их. Еще раз большое спасибо

— Адам

4

В выпуске «Американского социологического обозрения» за 1983 г. есть статья Берк (3-й выпуск) - так я узнал о цензуре. Объяснение касается именно предвзятости выбора, но абсолютно соответствует вашей проблеме. Смещение выбора, как говорит Берк, - это просто цензура в процессе отбора образцов, в вашем случае цензура является результатом нечувствительного инструмента. Есть несколько хороших графиков, которые показывают, как именно вы можете ожидать, что ваша линия регрессии будет смещена, когда Y по-разному подвергается цензуре. В целом статья логична и понятна, а не математична (да, я отношусь к ним как к отдельному, предпочитая первое). Тобит обсуждается как одно из решений проблемы.

В более общем смысле, похоже, что «Тобит» - это правильный инструмент для работы. По сути, это работает путем оценки вероятности подвергнуться цензуре и последующего включения ее в уравнение, прогнозирующее оценку. Есть еще один подход, предложенный Хекманом, использующий соотношение пробита и обратного фрезерования, который в основном одно и то же, но позволяет вам иметь разные переменные, предсказывающие вероятность цензуры и оценки в тесте - очевидно, что это не будет подходящим для ситуации, которую вы иметь.

Еще одна рекомендация - вы можете рассмотреть иерархическую модель тобита, в которой наблюдения вложены в отдельных лиц. Это будет правильно учитывать тенденцию ошибок, связанных с людьми. Или, если вы не используете иерархическую модель, по крайней мере, обязательно скорректируйте ваши стандартные ошибки для кластеризации наблюдений внутри отдельных людей. Я знаю, что все это может быть сделано в Stata, и я уверен, что R со всей его универсальностью может сделать это тоже ... но как заядлый пользователь Stata, я не могу дать вам никаких советов о том, как это сделать в R.

— Будет
источник

Я полагаю, что это полная цитата к статье, на которую ссылается @Will: Berk, RA (1983). Введение в смещение выборки в социологических данных. Американский социологический обзор, 48, 386-398. doi: 10.2307 / 2095230 Существует несколько свободно доступных версий этого документа, которые вы найдете в Google Scholar, например.

— 13