Продольное сравнение двух распределений


10

У меня есть результаты анализов крови 2500 человек четыре раза с шестимесячным интервалом. Результаты в основном состоят из двух показателей иммунного ответа - один в присутствии определенных антигенов туберкулеза, один в отсутствие. В настоящее время каждый тест оценивается как положительный или отрицательный, основываясь на разнице между ответом антигена и ответом ноль (при том, что если ваша иммунная система реагирует на антигены ТБ, вы, вероятно, в какой-то момент подвергались воздействию самой бактерии). ). По сути, тест предполагает, что распределения у ноля и туберкулеза у лиц, не подвергшихся воздействию, должны быть в основном идентичными, тогда как у человека с воздействием ТБ ответы на ТБ будут взяты из другого распределения (более высоких значений). Предостережение: ответы очень, очень ненормальные, и значения сгущаются как на естественном полу, так и на потолке с усеченными инструментами.

Тем не менее, в этой продольной обстановке кажется довольно ясным, что мы получаем «ложные срабатывания» (я боюсь, что нет действительного золотого стандарта для скрытого туберкулеза), которые вызваны (обычно небольшими) колебаниями антигена и нулевыми ответами. Хотя этого может быть трудно избежать в некоторых ситуациях (у вас может быть только один шанс проверить кого-либо), существует множество ситуаций, в которых люди регулярно проходят тестирование на туберкулез каждый год или около того - в США это характерно для работников здравоохранения, военные, бездомные, оставшиеся в приютах, и так далее. Кажется, стыдно игнорировать предыдущие результаты испытаний, потому что существующие критерии оказываются поперечными.

Я думаю, что то, что я хотел бы сделать, это то, что я грубо воспринимаю как продольный анализ смеси. Так же, как и критерии поперечного сечения, я хотел бы иметь возможность оценить вероятность того, что индивидуальные ответы по туберкулезу и нолю получены из одного и того же распределения, но при этом эта оценка включает в себя результаты предыдущих испытаний, а также информацию из выборки как в целом (например, могу ли я использовать выборочное распределение вариаций внутри индивидуума для улучшения моих оценок распределения конкретного индивидуума ноль или туберкулез?). Предполагаемая вероятность должна иметь возможность со временем меняться, чтобы учесть вероятность новой инфекции.

Я полностью исказился, пытаясь думать об этом необычным образом, но я чувствую, что эта концептуализация так же хороша, как и любая другая, которую я собираюсь придумать. Если что-то не имеет смысла, пожалуйста, не стесняйтесь просить разъяснений. Если мое понимание ситуации кажется неправильным, пожалуйста, не стесняйтесь, сообщите мне. Большое вам спасибо за вашу помощь.

В ответ Srikant: Это случай скрытой классификации (туберкулезной или нет) с использованием двух непрерывных (но ненормальных и усеченных) результатов теста. Прямо сейчас, эта классификация сделана, используя сокращение (в его упрощенной форме, TB - ноль> .35 -> положительный). С результатами теста, представленными как (ноль, ТБ, результат), основными архетипами * являются:

Вероятный отрицательный: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Вероятный положительный: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Воблер: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Позитив во втором тесте для Воблера - это явно отклонение, но как бы вы это смоделировали? Хотя одной из моих мыслей является оценка «истинной разницы» между туберкулезом и нулем в каждый момент времени с использованием многоуровневой модели с повторными измерениями, мне пришло в голову, что я действительно хочу знать, является ли ответ человека нулевым и ответом на туберкулез взяты из того же распределения, или если их иммунная система распознает антигены ТБ и активирует, вызывая повышенный ответ.

Что касается того, что могло вызвать положительный тест кроме инфекции: я не уверен. Я подозреваю, что, как правило, это просто индивидуальные различия в результатах, но, безусловно, возможны и другие факторы. У нас есть вопросники с каждого момента времени, но я еще не слишком разбирался в них.

* Изготовлены, но иллюстративные данные


Да, и не стесняйтесь повторно пометить - мой браузер не работает с автоматическим предложением, поэтому мне трудно увидеть, что там.
Мэтт Паркер

Является ли ваша зависимая переменная непрерывной или дискретной? Или, может быть, базовый результат теста является непрерывным, и он преобразуется в дискретный ответ (т. Е. «Положительный», «отрицательный») в зависимости от некоторого отсечения? Не могли бы вы также уточнить, почему человек переходит с негативного на позитивный, несмотря на то, что он не подвержен туберкулезу? Может помочь конкретный пример (с добавленными цифрами) такого броска.

1
Примеры действительно полезны для визуализации данных. Еще один вопрос, касающийся вашего предостережения: «значения скапливаются на полу и потолке и что данные не являются нормальными». Можете ли вы сказать мне, если (а) данные на нижнем конце шкалы выглядят нормально и (б) данные на верхнем конце шкалы выглядят нормально?

Примечание: я, очевидно, не выполнил крайний срок для фактического присуждения награды, поэтому я настраиваю другую, чтобы я мог должным образом вознаграждать Сриканта за его помощь. Больше ответов всегда приветствуются, но награда за него.
Мэтт Паркер

Ответы:


2

Это не полный ответ, но я надеюсь, что он даст вам некоторые идеи относительно того, как смоделировать ситуацию.

Предположения

  1. Значения в нижней части шкалы соответствуют нормальному распределению, усеченному снизу.

  2. Значения в верхнем конце шкалы соответствуют нормальному распределению, усеченному сверху.

    (Примечание: я знаю, что вы сказали, что данные не являются нормальными, но я предполагаю, что вы имеете в виду распределение всех значений, в то время как вышеприведенные предположения относятся к значениям в нижней и верхней части шкалы.)

  3. Основное состояние человека (у него туберкулез или нет) следует цепочке марков первого порядка.

модель

Позволять:

  1. Di(t)tith

  2. RTBi(t)tith

  3. RNi(t)tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    Пункты 4 и 5 отражают идею о том, что реакция человека на тест NILL не зависит от статуса заболевания.

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    Пункты 6, 7 и 8 отражают идею о том, что реакция человека на тест на туберкулез зависит от статуса заболевания.

  9. p(t)t

    [1p(t)p(t)01]

    Другими словами,

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    Prob(Di(t)=0|Di(t1)=0)=1p(t)

    Prob(Di(t)=1|Di(t1)=1)=1

    Prob(Di(t)=0|Di(t1)=1)=0

Ваш критерий теста гласит, что:

D^i(t)={1,RTBi(t)RNi(t)0.350,otherwise

Однако, как видно из структуры модели, вы можете параметризовать отсечки и изменить всю проблему на ту, которая должна быть отсечкой для точной диагностики пациентов. Таким образом, проблема воблера, скорее всего, больше связана с вашим выбором срезов, чем с чем-либо еще.

p(t)

Надеюсь, что это полезно.


Спасибо, Срикант! Извините, я как-то пропустил ваш комментарий ранее. Верхний кластер на самом деле является просто шипом прямо под потолком - там нет никакой изменчивости, за исключением длинного участка однородности, который связывает его с нижним распределением, которое в основном, как вы описали Мне понадобится некоторое время, чтобы разобрать ваш ответ (тем более, что я застрял в IE и сейчас не могу правильно видеть LaTeX), но я действительно ценю вашу преданность этому странному маленькому вопросу.
Мэтт Паркер

3

Хитрый Мэтт, как много реальных проблем статистики!

Я бы начал определять ваши цели обучения.

Не зная истинного статуса субъектов, будет сложно определить распределение вероятностей для теста ТБ + и ТБ. У вас есть вопросы по поводу предыдущей инфекции ТБ (или, лучше, истории болезни). Кроме того, я все еще тестирую ТБ + из-за иммунизации в детстве - несколько десятилетий назад - поэтому необходимо рассмотреть предыдущие прививки.

Мне кажется, что ваш внутренний вопрос таков: влияет ли повторное тестирование на ТБ на результаты теста?

Было бы полезно получить копию анализа продольных данных Питера Диггла .

Проведите некоторый исследовательский анализ данных, в частности матрицы разброса графиков результатов нулевого теста в каждый момент времени друг против друга, а также результаты теста на ТБ в каждый момент времени друг против друга; и графики зависимости ТБ от нуля (в каждый момент времени). Также возьмите различия (тест на ТБ - тест на ноль) и сделайте матрицы разброса. Попробуйте преобразование данных и повторите их - я думаю, что log (TB) - log (Nil) может помочь, если результаты TB очень велики по сравнению с Nil. Ищите линейные отношения в структуре корреляций.

Другой подход заключается в том, чтобы взять определенный результат теста (положительный / отрицательный) и смоделировать его логически, используя нелинейную модель смешанных эффектов (logit link). Перемещаются ли некоторые люди между тестированием ТБ + на ТБ и связано ли это с их нулевым тестом, туберкулезным тестом, ТБ - ноль или каким-либо преобразованием результатов теста?


Спасибо за Ваш ответ. Что касается незнания истинного статуса: у нас есть обширные вопросники и мы хорошо осведомлены о проблеме вакцины БЦЖ с помощью кожного теста - на самом деле, эти анализы крови должны решить эту проблему, потому что они используют набор антигенов, отличный от того, который вы использовали для PPD. привыкли. Однако это почти отдельный вопрос, над которым мы будем работать чуть позже - сейчас я заинтересован в том, чтобы сделать этот тест «давно осведомленным».
Мэтт Паркер

... особенно потому, что некоторые люди переходят от отрицательного к положительному, и это часто является результатом их типичных результатов «ноль» и «туберкулез», приводящих к небольшим колебаниям - «ноль вниз», «туберкулез» немного, и внезапно они становятся положительными. Следующий тест, они вернулись к отрицательности. Я вижу это, когда рассматриваю отдельные результаты, но я не уверен, как правильно включить мою интуицию в модель.
Мэтт Паркер

Наконец, хотя я и пытался взять результаты журнала, этого, кажется, недостаточно, чтобы приблизить их к нормальному состоянию. Они очень, очень искажены, и усечение в верхнем конце еще более усложняет это, добавляя заметную каплю плотности в потолке. Интересно, однако, что распределение по нолю и ТБ по всей выборке довольно схоже, с той лишь разницей, что этот шарик на потолке намного больше для результатов по ТБ.
Мэтт Паркер

Спасибо, что нашли время, чтобы прочитать и ответить на этот зверь вопроса!
Мэтт Паркер
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.