Как рассчитать среднюю продолжительность приверженности вегетарианству, когда у нас есть только данные опросов о текущих вегетарианцах?

Была обследована случайная выборка населения. Их спросили, придерживаются ли они вегетарианской диеты. Если они ответили «да», их также попросили указать, как долго они питались вегетарианской диетой без перерыва. Я хочу использовать эти данные для расчета средней продолжительности приверженности вегетарианству. Другими словами, когда кто-то становится вегетарианцем, я хочу знать, что в среднем он остается вегетарианцем. Давайте предположим, что:

Все респонденты дали правильные и точные ответы
Мир стабилен: популярность вегетарианства не меняется, средняя продолжительность приверженности также не меняется.

Мои рассуждения до сих пор

Мне было полезно проанализировать игрушечную модель мира, где в начале каждого года два человека становятся вегетарианцами. Каждый раз один из них остается вегетарианцем в течение 1 года, а другой в течение 3 лет. Очевидно, что средняя продолжительность приверженности в этом мире составляет (1 + 3) / 2 = 2 года. Вот график, который иллюстрирует пример. Каждый прямоугольник представляет период вегетарианства:

иллюстрация

Допустим, мы проводим опрос в середине года 4 (красная линия). Мы получаем следующие данные:

стол

Мы получили бы те же данные, если бы приняли участие в опросе в любой год, начиная с года 3. Если мы просто усредним ответы, которые мы получим:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Мы недооцениваем, потому что предполагаем, что все перестали быть вегетарианцами сразу после опроса, что, очевидно, неверно. Чтобы получить оценку, которая ближе к реальному среднему времени, в течение которого эти участники оставались бы вегетарианцами, мы можем предположить, что в среднем они сообщили о времени примерно в середине своего периода вегетарианства и умножили сообщенные длительности на 2. В большом опросе случайным образом от населения (как тот, который я анализирую), я думаю, что это реалистичное предположение. По крайней мере, это дало бы правильное ожидаемое значение. Однако, если удвоение - единственное, что мы делаем, мы получаем среднее значение 2,5, что является завышенным значением. Это связано с тем, что чем дольше человек остается вегетарианцем, тем больше вероятность того, что он окажется в выборке нынешних вегетарианцев.

Тогда я подумал, что вероятность того, что кто-то входит в выборку нынешних вегетарианцев, пропорциональна их продолжительности вегетарианства. Чтобы учесть эту предвзятость, я попытался разделить число текущих вегетарианцев на их предполагаемую продолжительность приверженности:

еще один стол

Однако это также дает неверное среднее значение:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2.533333 = 1.579 года

Это дало бы правильную оценку, если бы число вегетарианцев было разделено на их правильную длину приверженности:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 года

Но это не сработает, если я использую предсказанные длины приверженности, и они - все, что у меня есть на самом деле. Я не знаю, что еще попробовать. Я немного читал об анализе выживания, но я не уверен, как применять его в этом случае. В идеале я также хотел бы рассчитать 90% доверительный интервал. Любые советы будут с благодарностью.

РЕДАКТИРОВАТЬ: Возможно, что вопрос выше не имеет ответа. Но было также другое исследование, в котором был задан вопрос о случайной выборке людей, были ли они / были вегетарианцами и сколько раз они были вегетарианцами в прошлом. Я также знаю возраст каждого в обоих исследованиях и некоторых других вещах. Возможно, эту информацию можно использовать в связи с опросом нынешних вегетарианцев, чтобы как-то получить среднее. На самом деле, исследование, о котором я говорил, является лишь одним из кусочков головоломки, но очень важным, и я хочу извлечь из него больше пользы.

— Саулюс Шимчикас
источник

Это не вариант, банкомат. Эти данные определенно свидетельствуют о продолжительности приверженности, я просто не знаю, как их использовать.

— Саулюс Шимчикас

По крайней мере одно из ваших изображений исчезло (ошибка 403 при использовании URL).

— Баррикартер

@kjetilbhalvorsen Для проблемы не имеет значения, продолжают ли вегетарианцы быть вегетарианцами на всю жизнь. В какой-то момент они перестанут быть вегетарианцами, либо есть мясо, либо умирать.

— Пер

@kjetil Ваш комментарий «настоящих вегетарианцев» звучит как « Настоящий шотландец» . Обычное определение вегетарианца ничего не говорит ни о том, что может произойти в будущем, ни о том, почему кто-то вегетарианец, но только об их поведении во время рассмотрения этого атрибута. Если кто-то сейчас вегетарианец, он сейчас вегетарианец, по какой-то причине он один. Я не думаю, что наши личные чувства по поводу идеи поедания мяса или причины, по которым мы могли бы чувствовать, что мы делаем, - это тема здесь; они принадлежат где-то еще.

— Glen_b

Поскольку люди, которые являются вегетарианцами дольше, с большей вероятностью будут выбраны для появления в вашей выборке, это означает, что функция плотности вероятности ваших выборочных данных пропорциональна единице за вычетом кумулятивной функции распределения длин сцепления. Чтобы сделать пример из вашего примера, распределение длин составляет [0, 0,5, 0, 0,5] (50% длится в течение 1 года, 50% в течение 3 лет), давая CDF [0, 0,5, 0,5, 1 ], с одним минусом, равным [1, 0,5, 0,5, 0], который пропорционален подсчетам [2, 1, 1, 0] вашего образца.

— PhiNotPi

Ответы:

Пусть обозначает pdf длины приверженности вегетарианства среди населения. Наша цель - оценить . $f_X(x)$ $X$ $EX=\int_0^\infty xf_X(x)dx$

$S$ $X$ $X$

f_{X | S} (x) = \frac{x f_{X} (x)}{\int x f_{X} (x) d x} = \frac{x f_{X} (x)}{E X} .

$f_{X|S}(x) = \frac{xf_X(x)}{\int x f_X(x) dx}=\frac{xf_X(x)}{EX}.$

Z

$Z$

X

$X$

S

$S$

f_{Z | X = x} (z) = \frac{1}{x}, 0 < z < x .

$f_{Z|X=x}(z) = \frac1x, 0<z<x.$

Z

$Z$

\begin{aligned} f_{Z} (z) & = \int_{z}^{\infty} f_{Z | X = x} (z) f_{X | S} (x) d x \\ = \int_{z}^{\infty} \frac{1}{x} \frac{x f_{X} (x)}{E X} d x \\ = \frac{1 - F_{X} (z)}{E X}, \end{aligned}

$\begin{align} f_Z(z) &= \int_z^\infty f_{Z|X=x}(z)f_{X|S}(x)dx \\&= \int_z^\infty \frac1x \frac{xf_X(x)}{EX}dx \\&= \frac{1-F_X(z)}{EX}, \end{align}$

F_{X} (z)

$F_X(z)$

X

$X$

X

$X$

F_{X} (0) = P (X \leq 0) = 0

$F_X(0)=P(X\le 0)=0$

f_{Z} (0) = 1 / E X

$f_Z(0)=1/EX$

$EX$ $f_Z(z)$ $z_1,z_2,\dots,z_n$ $z=0$ $f_Z(z)$ $z=0$ $\hat f_Z(0)$ $f_Z(z)$ $z=0$ $EX$ $\widehat{EX}=1/\hat f_Z(0)$

$f_Z(z)$ $f_X(0)=F_X'(0)>0$ $f_Z(0)$ $EX$ $EX$ в таких ситуациях без дополнительных предположений кажется трудным, в основном потому, что короткое время присоединения, присутствующее в этой ситуации, едва ли проявляется в наблюдаемых данных в результате смещенной выборки.

$f_X(x)$

L (θ) = \prod_{i = 1}^{n} \frac{1 - F_{X} (z_{i}; θ)}{E X (θ)}

$L(\theta)=\prod_{i=1}^n \frac{1-F_X(z_i;\theta)}{EX(\theta)}$

R код, моделирующий данные и реализующий оба метода:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

— Ярле Туфто
источник

Привет, большое спасибо за ответ, я еще не нашел время, чтобы понять все, просто хотел добавить, что я знаю общее распространение из этого другого исследования. (единственная проблема другого исследования заключалась в том, что он заставлял людей выбирать между вариантами того, как долго они были вегетарианцами, и один из вариантов был «более 10 лет», а среднее значение почти полностью зависит от того, сколько человек старше 10 лет. оставаться вегетарианцем)

— Саулюс Шимчикас

Хорошо, я надеюсь, что в моих рассуждениях нет серьезных недостатков. Я вижу, что @PhiNotPi приходит к тому же pdf в своем комментарии к OP.

— Ярле Туфто

@Saulius Если у вас есть доступ ко второму правому цензурированному набору данных, и базовые распределения действительно можно считать идентичными, то идеальным решением было бы объединить вероятность для этого набора данных (который легко записать, если он просто некоторая правильная цензура), а затем максимизировать совместную вероятность.

— Ярле Туфто

что цензура неверна : imgur.com/U8ofZ3A Теперь я понимаю, что мне пришлось упомянуть об этом с самого начала, но я подумал, что у моей проблемы было более простое решение ...

— Саулюс Шимчикас

@Saulius Эти данные подвергнуты цензуре. Опять же, это просто для вычисления вероятности.

— Ярле Туфто

(Я не стал добавлять это, так как, похоже, @JarleTufto уже дал хороший математический подход; однако я не достаточно умен, чтобы понять его ответ, и теперь мне интересно, если это точно такой же подход, или если подход, который я опишу ниже, когда-либо имеет свое применение.)

То, что я хотел бы сделать, это угадать среднюю длину и угадать несколько распределений вокруг нее, а затем для каждого сделать имитацию моей популяции и регулярно проверять ее.

Вы сказали, что общая численность вегетарианцев не меняется, поэтому каждый раз, когда моя модель останавливается, создается новый вегетарианец. Нам нужно запустить модель в течение нескольких смоделированных лет, чтобы убедиться, что она установлена, прежде чем мы сможем начать выборку. После этого я думаю, что вы можете брать образцы каждый смоделированный месяц (*), пока у вас не будет достаточно, чтобы сформировать свой 90% доверительный интервал.

*: или любое другое разрешение, которое работает с вашими данными. Если люди давали свой ответ на ближайший год, выборка каждые 6 месяцев достаточно хороша.

Из всех ваших предположений вы выбираете среднее значение и распределение, которое (усредненное по всем взятым выборкам) дает вам наиболее близкий результат к тому, что дало ваше реальное исследование.

Я хотел бы повторить свои догадки несколько раз, чтобы выбрать лучший матч.

Лучший дистрибутив не может быть однопиковым. Бывших вегетарианцев, о которых я лично могу думать, остановили из-за серьезных изменений в образе жизни (как правило, брак / проживание в не-вегетарианской или переездной стране, тяжелое заболевание и врач, предполагающий, что это может быть диета); с другой стороны - сила привычки: чем дольше вы были вегетарианцем, тем больше у вас шансов остаться им. Если бы ваши данные содержали запрос о возрасте и статусе отношений, мы могли бы добавить это и в вышеприведенную симуляцию.

— Даррен Кук
источник