Статистические методы для данных, где известно только минимальное / максимальное значение


29

Существует ли какая-либо ветвь статистики, имеющая дело с данными, для которых точные значения неизвестны , но для каждого человека мы знаем максимальную или минимальную привязку к значению ?

Я подозреваю, что моя проблема в основном связана с тем, что я изо всех сил пытаюсь сформулировать ее в статистических терминах, но, надеюсь, пример поможет прояснить:

Скажем, есть две взаимосвязанные популяции и , так что в некоторый момент члены могут «переходить» в , но обратное невозможно. Время перехода является переменным, но не случайным. Например, может быть «лицами без потомства» и «лицами с хотя бы одним потомством». Меня интересует возраст, в котором происходит это прогрессирование, но у меня есть только поперечные данные. Для любого данного человека, я могу узнать, если они принадлежат к или . Я также знаю возраст этих людей. Для каждого человека в популяцииB A B A B A B AAВAВAВAВAЯ знаю, что возраст при переходе будет БОЛЬШЕ, чем их нынешний возраст. Аналогичным образом, для членов я знаю, что переходный возраст был МЕНЬШЕ, чем их нынешний возраст. Но я не знаю точных значений.В

Скажем, у меня есть другой фактор, который я хочу сравнить с возрастом перехода. Например, я хочу знать, влияет ли подвид или размер тела человека на возраст первого потомства. У меня определенно есть некоторая полезная информация, которая должна ответить на эти вопросы: в среднем, у лиц в группе пожилые люди имеют более поздний переход. Но информация несовершенна , особенно для молодых людей. И наоборот , для населения .AВ

Существуют ли установленные методы для работы с данными такого рода ? Мне не обязательно нужен полный метод проведения такого анализа, просто некоторые поисковые термины или полезные ресурсы, чтобы начать меня в нужном месте!

Предостережения: я делаю упрощающее предположение, что переход от к происходит мгновенно. Я также готов предположить, что большинство людей в какой-то момент перейдут к , предполагая, что они живут достаточно долго. И я понимаю, что данные лонгитютина были бы очень полезны, но предположим, что в этом случае они недоступны.B BAВВ

Извините, если это дубликат, как я уже сказал, часть моей проблемы в том, что я не знаю, что мне нужно искать. По той же причине, пожалуйста, добавьте другие теги, если это необходимо.

Пример набора данных: Ssp указывает один из двух подвидов, или . Потомство указывает на отсутствие потомства ( ) или хотя бы одного потомства ( )YИксYBAВ

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

Изменить: пример набора данных изменен, так как он не очень представительный


2
Это интересная ситуация. Можете ли вы предоставить свои данные?
gung - Восстановить Монику

1
Я не смог бы опубликовать полный набор данных, но мог бы привести пример.
user2390246

Ответы:


26

Это называется текущими данными о состоянии . Вы получаете одно поперечное сечение данных, и, что касается ответа, все, что вы знаете, это то, что в наблюдаемом возрасте каждого субъекта произошло событие (в вашем случае: переход от А к В) или нет. Это частный случай интервальной цензуры .

Чтобы формально определить его, пусть будет (ненаблюдаемым) истинным временем события для субъекта i . Пусть C i время осмотра для субъекта i (в вашем случае: возраст при осмотре). Если C i < T i , данные подвергаются правильной цензуре . В противном случае данные подвергаются цензуре . Мы интересны при моделировании распределения Т . Для моделей регрессии, мы заинтересованы в моделировании , как это распределение изменяется с набором ковариата X .TяяСяяСя<TяTИкс

Чтобы проанализировать это с помощью методов интервальной цензуры, вы хотите поместить свои данные в общий формат интервальной цензуры. То есть для каждого субъекта у нас есть интервал , который представляет интервал, в котором мы знаем, что T i должен содержаться. Поэтому, если субъект i подвергнут цензуре справа во время проверки c i , мы бы написали ( c i , ) . Если его оставить цензурированным в c i , мы бы представили его как ( 0 , c i ) .(Lя,ря)Tяяся(ся,)ся(0,ся)

Бесстыдный плагин: если вы хотите использовать регрессионные модели для анализа ваших данных, это можно сделать с помощью R icenReg (я автор). На самом деле, в аналогичном вопросе о данных о текущем состоянии , ОП выложил хорошую демонстрацию использования icenReg . Он начинает с того, что показывает, что игнорирование части цензуры и использование логистической регрессии приводит к смещению (важное примечание: он имеет в виду использование логистической регрессии без учета возраста . Подробнее об этом позже.)

Еще один замечательный пакет interval, который содержит статистические тесты лог-ранга, среди других инструментов.

РЕДАКТИРОВАТЬ:

@EdM предложил использовать логистическую регрессию для решения проблемы. Я несправедливо отмахнулся от этого, сказав, что вам придется беспокоиться о функциональной форме времени. Хотя я поддерживаю утверждение о том, что вам следует беспокоиться о функциональной форме времени, я понял, что произошло очень разумное преобразование, которое приводит к разумной параметрической оценке.

В частности, если мы используем log (время) как ковариату в нашей модели с логистической регрессией, мы в конечном итоге получим модель пропорциональных шансов с логистической базой.

Чтобы увидеть это, сначала рассмотрим, что модель регрессии пропорциональных шансов определяется как

шансы(T|Икс,β)знак равноеИксTβшансыо(T)

шансыо(T)T

Теперь рассмотрим логистическую регрессию с log (Time) как ковариату. Затем мы имеем

п(Yзнак равно1|Tзнак равноT)знак равноехр(β0+β1журнал(T))1+ехр(β0+β1журнал(T))

Проделав небольшую работу, вы можете увидеть это как CDF логистической модели (с нелинейным преобразованием параметров).

R демонстрация того, что подгонки эквивалентны:

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

Обратите внимание, что эффект grpодинаков в каждой модели, и окончательная логарифмическая вероятность отличается только числовой ошибкой. Базовые параметры (т. Е. Intercept и log_age для логистической регрессии, альфа и бета для модели с интервальной цензурой) являются разными параметризациями, поэтому они не равны.

Вот и все: использование логистической регрессии эквивалентно подгонке пропорциональных коэффициентов к логистически-базовому распределению. Если вы согласны с подгонкой этой параметрической модели, логическая регрессия вполне разумна. Я действительно предупреждаю, что с данными с цензурой по интервалам полупараметрические модели обычно предпочтительнее из-за сложности оценки соответствия модели, но если бы я действительно думал, что нет места для полностью параметрических моделей, я бы их не включил icenReg.


Это выглядит очень полезным. Я посмотрю на ресурсы, на которые вы указываете, и поиграйте с пакетом icenReg. Я пытаюсь понять, почему логистическая регрессия менее подходит - предложение @EdM выглядит так, как будто оно должно работать. Возникает ли предвзятость, потому что «событие» - здесь, имея потомство - может повлиять на выживание? Итак, если это уменьшит выживаемость, мы обнаружим, что среди лиц данного возраста те, кто не размножается, будут перепредставлены?
user2390246

1
@ user2390246: Вы можете использовать логистическую регрессию для данных о текущем состоянии. Но тогда вам нужно проделать большую работу, чтобы получить функциональную форму возраста, и это правильно, это взаимодействие с другими переменными. Это очень нетривиально. В моделях, основанных на выживании, вы можете использовать полупараметрическую базовую линию ( ic_spin icenReg) и вообще не беспокоиться об этом. Кроме того, если посмотреть на кривые выживаемости для двух групп, вы ответите правильно на ваш вопрос. Попытка воссоздать это из логистической подгонки могла бы быть сделана, но опять же, гораздо больше работы, чем использование моделей выживания.
Клифф AB

Я согласен с @CliffAB по этому вопросу. Я не решался рекомендовать логистическую регрессию именно из-за сложности получения правильной функциональной формы для зависимости от возраста. У меня не было опыта анализа данных о текущем состоянии; отсутствие необходимости выяснять, что форма зависимости от возраста является большим преимуществом этой техники. Тем не менее, я продолжу свой ответ, чтобы те, кто позже изучит эту ветку, поняли, как это закончилось.
EdM

Мне кажется, что ваш комментарий здесь суть дела. Было бы полезно, если бы вы могли развить это в своем ответе. Например, если бы вы могли использовать пример данных ОП для построения модели LR и модели выживания с цензурой с интервалом, и показать, как последний легче отвечает на вопрос исследования ОП.
gung - Восстановить Монику

1
@ Gung: на самом деле, я занял более мягкую позицию по поводу логистической регрессии. Я отредактировал свой ответ, чтобы отразить это.
Клифф А.Б.

4

е(Икс)F(Икс)Иксяяе(Икся)Yя1-F(Yя)ZяF(Zя)(Yя,Zя]F(Zя)-F(Yя)


1
е(Икс)F(Yя)F(Yя+)

4

Похоже, что эта проблема хорошо решается с помощью логистической регрессии.

У вас есть два состояния, A и B, и вы хотите изучить вероятность того, что конкретное лицо необратимо перешло из состояния A в состояние B. Одной из фундаментальных переменных-предикторов будет возраст во время наблюдения. Другим фактором или факторами, представляющими интерес, могут быть дополнительные предикторы.

Тогда ваша логистическая модель будет использовать фактические наблюдения состояния A / B, возраста и других факторов для оценки вероятности нахождения в состоянии B как функции этих предикторов. Возраст, в котором эта вероятность превышает 0,5, можно использовать в качестве оценки времени перехода, и затем вы изучите влияние других факторов на это прогнозируемое время перехода.

Добавлено в ответ на обсуждение:

Как и в случае любой линейной модели, вам необходимо убедиться, что ваши предикторы преобразованы таким образом, что они имеют линейное отношение к выходной переменной, в этом случае лог-шансы вероятности перехода в состояние B. Это не обязательно тривиальная проблема. Ответ @CliffAB показывает, как можно использовать лог-преобразование переменной age.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.