Описательно говоря, я бы предложил «выборка данных подвергается цензуре, если некоторые наблюдения в ней принимают или составляют экстремальные значения выборки, но их истинное значение находится за пределами наблюдаемого диапазона выборки». Но это обманчиво просто.
Итак, давайте сначала обсудим, как мы можем сделать вывод, что набор данных подвергается цензуре, что, естественно, приведет нас к обсуждению случаев, представленных в вопросе.
Предположим, нам дан следующий набор данных из дискретной случайной величины , для которого мы знаем только то, что она неотрицательна:X
{0,1,1,2,2,2,2,2,2,2}
Можно ли сказать, что набор данных подвергается цензуре? Ну, мы вправе думать, что это может быть, но это не обязательно так:
1) может иметь диапазон { 0 , 1 , 2 } и распределение вероятностей { 0,1 , 0,1 ,X{0,1,2}{0.1,0.1,0.8} . Если это действительно так, то, похоже, здесь нет цензуры, просто «ожидаемая» выборка из такой случайной величины с ограниченной поддержкой и сильно асимметричным распределением.
2) Но это может быть так , что имеет диапазон { 0 , 1 , . , , , 9 } с равномерным распределением вероятностей { 0,1 , 0,1 , . , +0,0X{0,1,...,9} , и в этом случае наша выборка данных, скорее всего, подвергнута цензуре. {0.1,0.1,...0.1}
Как мы можем сказать? Мы не можем, за исключением тех случаев, когда у нас есть предварительные знания или информация , которые позволят нам выступить в пользу того или другого дела. Представляют ли три случая, представленные в вопросе, предварительные знания о влиянии цензуры? Посмотрим:
Случай А) описывает ситуацию, когда для некоторых наблюдений мы имеем только качественную информацию, такую как «очень большая», «очень маленькая» и т. Д., Что приводит нас к тому, что мы присваиваем наблюдению экстремальное значение. Обратите внимание, что простое незнание фактического реализованного значения не оправдывает присвоение экстремального значения. Итак, мы должны иметь некоторую информацию о том, что для этих наблюдений их значение превышает или ниже всех наблюдаемых. В этом случае фактический диапазон случайной величины неизвестен, но наша качественная информация позволяет нам создать цензурированную выборку (это еще одно обсуждение того, почему мы не просто отбрасываем наблюдения, для которых мы не обладаем фактическим реализованным значением ).
Случай B) - это не случай цензуры, если я правильно понимаю, а случай зараженного образца: наша априорная информация говорит нам, что максимальное значение случайной величины не может превышать (скажем, по физическому закону или социальный закон - предположим, что это данные оценок из системы оценок, которая использует только значения 1 , 2 , 3 ). Но мы наблюдали также значение 4 и значение 5 . Как это может быть? Ошибка в записи данных. Но в таком случае мы не знаем наверняка, что 4 и 5 должны быть все 331,2,345453 (на самом деле, глядя на боковую клавиатуру компьютера, более вероятно, что - это 1 , а 5 - это 2 !). «Корректируя» каким-либо образом выборку, мы не делаем ее цензурированной, посколькув первую очередьслучайная переменная не должна находиться взарегистрированномдиапазоне (таким образом, истинным вероятностям, назначенным значениям 4 и41524 ). 5
Случай C) относится к совместной выборке, где у нас есть зависимая переменная и предикторы. Здесь мы можем иметь выборку, в которой значения зависимой переменной сконцентрированы на одном или обоих экстремумах из-за структуры изучаемого явления: в обычном примере «отработанное время» безработные не работают, но они будут иметь работал (подумайте внимательно: действительно ли этот случай подпадает под описательное «определение» в начале этого ответа?). Так что включение их в регрессию с записанными часами "ноль" создает уклон. С другой стороны, можно утверждать, что максимальное количество отработанного часа может достигать, скажем, 16/ день, и могут быть сотрудники, которые готовы работать так много за вознаграждение. Но законодательная база не позволяет этого, и поэтому мы не наблюдаем такие «отработанные часы». Здесь мы пытаемся оценить « функцию предполагаемого предложения труда» - и именно в отношении этой переменной выборка характеризуется как цензурированная.
Но если бы мы заявили, что мы хотим оценить «функцию предложения рабочей силы с учетом феномена безработицы и правовой базы», выборка не будет подвергаться цензуре, поскольку она будет отражать влияние этих двух аспектов, то, что мы хотим это делать.
Таким образом, мы видим, что характеристика выборки данных как цензуры
а) может исходить из разных ситуаций и
б) требует некоторой осторожности -
только тот факт, что ее можно спутать со случаем усечения .