Какие есть способы показать, что два аналитических метода эквивалентны?

11

У меня есть два различных аналитических метода, которые могут измерить концентрацию конкретной молекулы в матрице (например, измерить количество соли в воде).

Эти два метода различны, и у каждого есть своя собственная ошибка. Какие существуют способы показать эти два метода эквивалентны (или нет).

Я думаю, что нанесение результатов из нескольких выборок, измеренных обоими методами, на диаграмму рассеяния является хорошим первым шагом, но есть ли хорошие статистические методы?

— PaulHurleyuk
источник

Можете ли вы дать более подробную информацию в вашем вопросе? Я не понимаю, что такое «концентрация конкретной молекулы в матрице».

— Робин Жирар

2

@robin: «матрица» в данном контексте является стандартной терминологией аналитической химии; оно относится к среде, в которой могут быть найдены сущности для анализа («аналиты»). Например, если вы анализируете концентрацию свинца в водопроводной воде, свинец - это аналит, а вода - матрица.

— JM не является статистиком

13

Простой корреляционный подход не является правильным способом анализа результатов сравнительных исследований методов. Есть (по крайней мере) две настоятельно рекомендуемые книги на эту тему, на которые я ссылался в конце (1,2). Вкратце, при сравнении методов измерения мы обычно ожидаем, что (а) наши выводы не должны зависеть от конкретной выборки, используемой для сравнения, и (б) должна быть учтена ошибка измерения, связанная с конкретным измерительным прибором. Это исключает любой метод, основанный на корреляциях, и мы обратим наше внимание на компоненты дисперсии или модели смешанных эффектов, которые позволяют отразить систематическое воздействие элемента (здесь элемент обозначает отдельное лицо или выборку, по которой собираются данные), что является результатом (а).

В вашем случае у вас есть отдельные измерения, собранные с использованием двух разных методов (я предполагаю, что ни один из них не может считаться золотым стандартом), и самое основное, что нужно сделать, - это построить график различий ( ) в сравнении со средними. ( ); это называется мягким заговором . Это позволит вам проверить, являются ли (1) вариации между двумя наборами измерений постоянными и (2) дисперсия разности постоянна во всем диапазоне наблюдаемых значений. По сути, это всего лишь 45-градусное вращение простого графика рассеяния против $X_1-X_2$ $(X_1+X_2)/2$ $X_1$ $X_2$ и его интерпретация близка к графику подгоночных и невязочных значений, используемых в линейной регрессии. Затем,

если разница постоянна ( постоянное смещение ), вы можете вычислить предел согласия (см. (3))
если разница не постоянна во всем диапазоне измерений, вы можете согласовать модель линейной регрессии между двумя методами (выберите тот, который вы хотите использовать в качестве предиктора)
если дисперсия различий не постоянна, попробуйте найти подходящее преобразование, которое делает отношения линейными с постоянной дисперсией

Другие подробности можно найти в (2), глава 4.

Ссылки

Данн Г. (2004). Разработка и анализ исследований надежности . Арнольд. Смотрите обзор в Международном журнале эпидемиологии .
Карстенсен, Б (2010). Сравнение клинических методов измерения . Wiley. Смотрите сопутствующий веб-сайт , включая код R
Оригинальная статья Бланда и Альтмана « Статистические методы оценки соответствия между двумя методами клинического измерения» .
Карстенсен, B (2004). Сравнение и прогнозирование между несколькими методами измерения . Биостатистика , 5 (3) , 399–413.

— хл
источник

Не могли бы вы уточнить, что вы подразумеваете под «(а) наши выводы не должны зависеть от конкретной выборки, использованной для сравнения»? У меня возникли проблемы из-за неоднозначности «выборки» в этом контексте: означает ли это «статистическая выборка» (набор данных, предположительно представляющих процесс или совокупность) или «выборка окружающей среды» (немного воды, почвы, воздух или ткань, как правило). В любом смысле я не могу провести логическую линию к вашему выводу, что это «исключает любой метод, основанный на корреляциях».

— whuber

@whuber Ну, я имею в виду сбор наблюдаемых данных (например, концентрации глюкозы), которые в идеале должны быть репрезентативными для вероятного диапазона того, что измеряется. Доверие к корреляции может вводить в заблуждение, поскольку оно зависит от единиц выборки (например, пациентов в больнице): мы можем получить более высокую корреляцию, просто выполнив одно или несколько экстремальных измерений по любой шкале, хотя соотношение между этими двумя методами остается прежним , Следовательно, идея заключается в том, что распределение показателя интереса не должно влиять на наш вывод о сопоставимости методов. (...)

— ЧЛ

@whuber (...) То, что мы хотим оценить, - это соглашение вне данных , а не взаимосвязь в данных (я цитирую Carstensen 2010, стр. 8-9).

— ЧЛ

Спасибо; это хорошо проясняет вашу позицию. По сути, это упражнение в калибровке, за исключением того, что у нас нет эталона для сравнения; мы просто предполагаем, что физические образцы, выбранные экспериментатором, охватывают некоторый диапазон истинных концентраций. Таким образом, как вы пишете, корреляция как таковая не обязательно является полезной мерой согласия между этими двумя методами. Обычно, однако, особенно для химических анализов, истинная концентрация известна (потому что экспериментатор ввел известное количество вещества в матрицу).

— whuber

@whuber Это верно. В отсутствие золотого стандарта нас просто интересует, в какой степени оба метода дают «сопоставимые» результаты, отсюда и идея полагаться на так называемые пределы согласия. Хотя истинная мера может быть известна заранее, каждый измерительный прибор имеет свою собственную погрешность измерения - по крайней мере, для тех, с которыми я имел дело в биомедицинской (например, концентрация глюкозы в крови) и нейропсихологической (например, уровень депрессии) области.

— ЧЛ

2

Если у вас нет возможности узнать истинную концентрацию, самый простой подход - это корреляция. Следующим шагом может быть проведение простой регрессии с прогнозированием результата по методу 2 с использованием метода 1 (или наоборот). Если методы идентичны, то пересечение должно быть 0; если перехват больше или меньше 0, это указывает на смещение одного метода относительно другого. Нестандартный наклон должен быть около 1, если методы в среднем дают результаты, которые идентичны (после учета смещения вверх или вниз в точке пересечения). Ошибка в нестандартном уклоне может служить показателем степени соответствия двух методов.

Мне кажется, что сложность статистических методов здесь заключается в том, что вы пытаетесь подтвердить то, что обычно представляется как нулевая гипотеза, то есть отсутствие различий между методами. Это не смертельный удар для использования статистических методов, если вам не нужно значение ap, и вы можете количественно определить, что вы подразумеваете под «эквивалентным», и можете решить, сколько отклонений могут иметь два метода друг от друга, прежде чем вы перестанете считать их эквивалентными. В регрессионном подходе, который я подробно описал выше, вы могли бы считать методы эквивалентными, если доверительный интервал вокруг оценки наклона включал 1, а CI вокруг пересечения включал 0.

— russellpierce
источник

В хемометрике ответы инструмента часто являются нелинейными и гетероскедастичными. Как минимум, это требует определенной осторожности при проведении и интерпретации регрессии.

— whuber

1

Я согласен с @drnexus. Кроме того, я мог бы рекомендовать критерий Моргана-Питмана на равенство дисперсий двух методов. Это скажет вам, если один метод имеет больше дисперсии, чем другой. Это само по себе не может быть плохой вещью, потому что предположительно два теста имеют разные компромиссы смещения (например, один тест всегда может сказать 50% (смещено, но не дисперсия), в то время как другой является беспристрастным, но очень шумным). Некоторые знания предметной области могут быть полезны при определении того, сколько вы хотите получить от вашего метода. Конечно, как отметили другие, наличие «золотого стандарта» было бы гораздо предпочтительнее.

— shabbychef
источник

1

Довольно старый вопрос, но как он снова возник сегодня

Ключевое ключевое слово - «валидация в аналитической химии», и поэтому здесь это немного не по теме (но поскольку здесь нет сайта по химии (пока: http://area51.stackexchange.com/proposals/4964/chemistry , I думаю, мы можем оставить это здесь на данный момент)

Для этого есть несколько стандартных процедур в аналитической химии.

Книги:

Funk et. al: Обеспечение качества в аналитической химии, Wiley-VCH.
Kromidas (Hrsg.): Руководство пользователя Validierung in der Analytik, Wiley-VCH
(я не знаю, есть ли английская версия, и у меня ее нет (пока). Но в оглавлении указана проверка многомерной калибровки.)

У ИЮПАК тоже есть что сказать по этому поводу:

Данзер К. и Керри Л.А.: Руководство по калибровке в аналитической химии. Часть I. Основы и калибровка отдельных компонентов, Чистая и прикладная химия, IUPAC, 1998, 4, 993-1014
Данзер К., Отто М. и Керри Л.А. Руководство по калибровке в аналитической химии. Часть 2: Многокомпонентная калибровка Чистая и прикладная химия, 2004, 76, 1215-1225

— cbeleites недоволен SX
источник

0

Ваше использование фразы «аналитические методы» меня немного смущает. Я предполагаю, что под «аналитическими методами» вы подразумеваете какую-то конкретную модель / стратегию оценки.

Вообще говоря, существует два типа метрик, которые вы можете использовать для выбора между оценщиками.

Метрики в выборке

Отношение правдоподобия / тест Вальда / тест баллов
R ²
Частота попадания в выборку (процент правильных прогнозов для выборочных данных)
(Множество других показателей в зависимости от модели / контекста оценки)

Метрики вне выборки

Показатели попадания вне выборки (процент правильных прогнозов для данных вне выборки)

Если оценки эквивалентны, они будут одинаково хорошо работать по этим показателям. Вы также можете увидеть, не являются ли оценки статистически отличными друг от друга (например, критерий равенства средних значений для двух выборок), но методология для этого будет зависеть от специфики модели и метода.

Извините, я имел в виду аналитический метод измерения. Я переформулировал вопрос.

— PaulHurleyuk

В этом случае, я думаю, что двухэлементный тест на равенство для средних / пропорций - это то, что вы, возможно, захотите сделать.

2

Разве проверка средних / пропорций не даст вам точную оценку того, дали ли два метода одинаковый средний ответ для данного набора ответов? Разве такой подход не может дать результат «равный», даже если два метода фактически отрицательно связаны друг с другом?

— Расселпирс

Это хороший момент.