Данные о химической концентрации часто имеют нули, но они не представляют нулевые значения : они представляют собой коды, которые по-разному (и сбивают с толку) представляют оба необнаружения (измерение показало, с высокой степенью вероятности, что аналит не присутствовал) и «не количественно» значения (измерение обнаружило аналит, но не смогло получить достоверное числовое значение). Давайте просто смутно назовем эти «ND» здесь.
Как правило, существует предел, связанный с НД, иначе известный как «предел обнаружения», «предел количественного определения» или (гораздо более честно) «предел отчетности», поскольку лаборатория предпочитает не предоставлять числовое значение (часто для причины). Все, что мы действительно знаем о ND, - это то, что истинное значение, вероятно, меньше, чем связанный предел: это почти (но не совсем) форма левой цензуры1,3301,330,50,1
За последние 30 лет были проведены обширные исследования относительно того, как лучше всего обобщить и оценить такие наборы данных. Деннис Хелсел опубликовал книгу на эту тему «Необнаружение и анализ данных» (Wiley, 2005), преподает курс и выпустил R
пакет, основанный на некоторых из тех методов, которые он предпочитает. Его сайт всеобъемлющий.
Это поле чревато ошибками и заблуждениями. Гельзель откровенен об этом: на первой странице главы 1 своей книги он пишет:
... наиболее часто используемый метод в исследованиях окружающей среды сегодня, замена половины предела обнаружения, НЕ является разумным методом для интерпретации цензурированных данных.
Так что делать? Варианты включают игнорирование этого полезного совета, применение некоторых методов из книги Хельзеля и использование некоторых альтернативных методов. Это верно, книга не является исчерпывающей, и существуют действительные альтернативы. Добавление константы ко всем значениям в наборе данных («запуск» их) равно единице. Но подумайте:
111
0
Отличным инструментом для определения начального значения является график логнормальной вероятности: кроме ND, данные должны быть приблизительно линейными.
Коллекция ND также может быть описана с помощью так называемого «дельта-логнормального» распределения. Это смесь точечной массы и логнормального.
Как видно из следующих гистограмм смоделированных значений, цензурированное и дельта-распределение не совпадают. Дельта-подход наиболее полезен для пояснительных переменных в регрессии: вы можете создать «фиктивную» переменную, чтобы указать ND, взять логарифмы обнаруженных значений (или иным образом преобразовать их при необходимости), и не беспокоиться о замене значений для ND ,
На этих гистограммах примерно 20% самых низких значений были заменены нулями. Для сопоставимости все они основаны на одних и тех же 1000 смоделированных базовых логнормальных значениях (вверху слева). Дельта-распределение было создано путем замены 200 значений случайными нулями . Цензурированное распределение было создано путем замены 200 наименьших значений нулями. «Реалистичное» распределение соответствует моему опыту, заключающемуся в том, что пределы отчетности фактически меняются на практике (даже если это не указано лабораторией!): Я сделал их случайным образом (чуть-чуть, редко более 30 в в любом направлении) и заменил все смоделированные значения, меньшие, чем их пределы отчетности, нулями.
Чтобы показать полезность вероятностного графика и объяснить его интерпретацию , на следующем рисунке показаны нормальные вероятностные графики, связанные с логарифмами предыдущих данных.
журнал( 1 + 0 ) = 0) построены слишком низко. Внизу слева показан график вероятности для набора данных с цензурой, начальное значение которого равно 120, что близко к типичному пределу отчетности. Подгонка в левом нижнем углу теперь приличная - мы только надеемся, что все эти значения находятся где-то рядом, но справа от выровненной линии - но кривизна в верхнем хвосте показывает, что добавление 120 начинает изменять форма распределения. Внизу справа показано, что происходит с дельта-логнормальными данными: есть хорошее прилегание к верхнему хвосту, но некоторая выраженная кривизна вблизи предела отчетности (в середине графика).
Наконец, давайте рассмотрим некоторые из более реалистичных сценариев:
В левом верхнем углу показан цензурированный набор данных с нулями, установленными на половину предела отчетности. Это очень хорошо подходит. В правом верхнем углу - более реалистичный набор данных (со случайно меняющимися пределами отчетности). Начальное значение 1 не помогает, но - в левом нижнем углу - для начального значения 120 (около верхнего диапазона пределов отчетности) подгонка достаточно хорошая. Интересно, что кривизна вблизи середины, когда точки поднимаются от ND до количественных значений, напоминает дельта-логнормальное распределение (даже если эти данные не были получены из такой смеси). В правом нижнем углу представлен график вероятности, который вы получаете, когда реалистичные данные заменяют свои ND на половину (типичного) предела отчетности. Это лучше всего подходит, несмотря на то, что он показывает некоторое дельта-логическое нормальное поведение в середине.
Таким образом, вам следует использовать графики вероятностей для изучения распределений, поскольку вместо ND используются различные константы. Начните поиск с половины номинального, среднего, предела отчетности, затем измените его вверх и вниз оттуда. Выберите график, который выглядит как справа внизу: примерно диагональная прямая линия для количественных значений, быстрый переход к низкому плато и плато значений, которые (едва ли) соответствуют расширению диагонали. Однако, следуя совету Хелселя (который настоятельно поддерживается в литературе), для фактических статистических сводок избегайте любого метода, который заменяет ND любой константой. Для регрессии рассмотрите добавление фиктивной переменной, чтобы указать ND. Для некоторых графических дисплеев постоянная замена ND значением, найденным с помощью упражнения на графике вероятности, будет работать хорошо. Для других графических дисплеев может быть важно изобразить фактические пределы отчетности, поэтому замените ND на их пределы отчетности. Вы должны быть гибкими!