Цензура часто описывается в сравнении с усечением . Хорошее описание двух процессов предоставлено Gelman et al (2005, p. 235):
Усеченные данные отличаются от цензурированных данных тем, что подсчет наблюдений за пределами точки усечения недоступен. При цензуре
значения наблюдений за пределами точки усечения теряются, но их количество наблюдается.
Цензура или усечение могут происходить для значений выше некоторого уровня (правая цензура), ниже некоторого уровня (левая цензура) или обоих.
2,02,0
Интуитивно понятный пример цензуры заключается в том, что вы спрашиваете своих респондентов об их возрасте, но записываете его только до некоторого значения, и все возрасты выше этого значения, например, 60 лет, записываются как «60+». Это приводит к получению точной информации о цензурированных значениях и отсутствию информации о цензурированных значениях.
Не очень типичный, реальный пример цензуры наблюдался в экзаменах по польским экзаменам на аттестат зрелости, которые привлекли большое внимание в интернете . Экзамен сдается в конце средней школы, и учащиеся должны сдать его, чтобы иметь возможность подать заявление на получение высшего образования. Можете ли вы угадать из приведенного ниже графика, какое минимальное количество баллов необходимо набрать студентам для сдачи экзамена? Неудивительно, что «пробел» в остальном нормальном распределении может быть легко «заполнен», если вы возьмете соответствующую долю перепредставленных баллов чуть выше границы цензуры.
В случае анализа выживания
цензура происходит, когда у нас есть некоторая информация об индивидуальном времени выживания, но мы точно не знаем время выживания
(Kleinbaum and Klein, 2005, с. 5). Например, вы лечите пациентов некоторыми препаратами и наблюдаете за ними до конца исследования, но вы не знаете, что с ними происходит после окончания исследования (были ли рецидивы или побочные эффекты?), Единственное, что вы знаете, это то, что они " "выжили" по крайней мере до конца исследования.
Ниже вы можете найти пример данных, сгенерированных из распределения Вейбулла, смоделированного с помощью оценки Каплана – Мейера. Модель меток синей кривой, оцененная по полному набору данных, на среднем графике вы видите цензурированную выборку и модель, оцененную по цензурированным данным (красная кривая), справа вы видите усеченную выборку и модель, оцененную по такой выборке (красная кривая). Как видите, недостающие данные (усечение) оказывают значительное влияние на оценки, но цензурой можно легко управлять с помощью стандартных моделей анализа выживаемости.
Это не означает, что вы не можете анализировать усеченные выборки, но в таких случаях вы должны использовать модели для отсутствующих данных, которые пытаются «угадать» неизвестную информацию.
Кляйнбаум Д.Г. и Кляйн М. (2005). Анализ выживания: самообучающийся текст. Springer.
Гельман А., Карлин Дж. Б., Стерн Х.С. и Рубин Д.Б. (2005). Байесовский анализ данных. Чепмен и Холл / CRC.