Недавно ко мне пришел клиент, чтобы выполнить анализ начальной загрузки, потому что рецензент FDA сказал, что их регрессия ошибок в переменных была недействительной, потому что при объединении данных с сайтов анализ включал объединение данных с трех сайтов, где два сайта включали некоторые выборки, которые были то же самое.
ФОН
У клиента был новый метод анализа, который он хотел показать, «эквивалентный» существующему утвержденному методу. Их подход состоял в том, чтобы сравнить результаты обоих методов, примененных к одним и тем же образцам. Три сайта были использованы для тестирования. Ошибки в переменных (регрессия Деминга) применялись к данным на каждом сайте. Идея состоит в том, что если бы регрессия показала, что параметр наклона был близок к 1, а точка пересечения около 0, это показало бы, что два метода анализа дали почти одинаковые результаты, и, следовательно, новый метод должен быть одобрен. На участке 1 у них было 45 образцов, что дало им 45 парных наблюдений. На участке 2 было 40 образцов, на участке 3 - 43 образца. Они выполнили три отдельные регрессии Деминга (предполагая отношение 1 к ошибкам измерения для двух методов). Таким образом, алгоритм минимизировал сумму квадратов перпендикулярных расстояний.
В своем представлении клиент указал, что некоторые образцы, использованные на участках 1 и 2, были одинаковыми. В обзоре рецензент FDA сказал, что регрессия Деминга была недействительной, потому что были использованы общие выборки, что вызывает «интерференцию», которая делает недействительными допущения модели. Они просили применить корректировку начальной загрузки к результатам Деминга, чтобы учесть это вмешательство.
В тот момент, когда клиент не знал, как сделать начальную загрузку, меня привели. Термин «вмешательство» был странным, и я не был точно уверен, к чему стремится рецензент. Я предположил, что суть в том, что из-за того, что у объединенных данных были общие выборки, для общих выборок будет корреляция, и, следовательно, члены ошибки модели не все будут независимыми.
АНАЛИЗ КЛИЕНТА
Три отдельные регрессии были очень похожи. Каждый имел параметры наклона, близкие к 1, и перехватывал около 0. 95% доверительный интервал содержал 1 и 0 для наклона и перехвата соответственно в каждом случае. Основным отличием было несколько более высокое остаточное отклонение на участке 3. Кроме того, они сравнили это с результатами выполнения OLS и обнаружили, что они очень похожи (только в одном случае доверительный интервал для наклона на основе OLS не содержал 1). В случае, когда OLS CI для наклона не содержал 1, верхняя граница интервала была чем-то вроде 0,99.
Поскольку результаты были одинаковыми на всех трех сайтах, объединение данных сайта казалось разумным. Клиент сделал объединенную регрессию Деминга, которая также привела к подобным результатам. Учитывая эти результаты, я написал отчет для клиента, оспаривая утверждение, что регрессии были недействительными. Мой аргумент заключается в том, что, поскольку в обеих переменных имеются одинаковые ошибки измерения, клиент был прав, используя регрессию Деминга как способ показать согласие / несогласие. У регрессий отдельных сайтов не было проблем с коррелированными ошибками, поскольку ни одна из выборок не повторялась на данном сайте. Объединение данных для получения более точных доверительных интервалов.
Эта трудность может быть устранена путем простого объединения данных с общими образцами с сайта 1, скажем, без учета. Кроме того, три модели сайта не имеют проблемы и являются действительными. Мне кажется, это является убедительным доказательством согласия даже без объединения. Кроме того, измерения были проведены независимо на участках 1 и 2 для общих участков. Таким образом, я думаю, что даже объединенный анализ, использующий все данные, является действительным, потому что ошибки измерения для образца на участке 1 не коррелируют с ошибками измерения в соответствующем образце на участке 2. Это действительно равносильно повторению точки в проекте пространство, которое не должно быть проблемой. Это не создает корреляцию / «вмешательство».
В своем отчете я написал, что анализ начальной загрузки не был необходим, потому что нет никакой корреляции для корректировки. Три модели площадок были действительны (никаких возможных «помех» внутри площадок), и можно было провести объединенный анализ, удалив общие образцы на площадке 1 при проведении объединения. Такой объединенный анализ не может иметь проблемы с помехами. Настройка начальной загрузки не понадобится, потому что нет смещения для настройки.
ВЫВОД
Клиент согласился с моим анализом, но боялся принять его в FDA. Они все равно хотят, чтобы я выполнил настройку начальной загрузки.
МОИ ВОПРОСЫ
А) Согласны ли вы с (1) моим анализом результатов клиента и (2) моим аргументом о том, что загрузчик не нужен.
Б) Учитывая, что я должен начать регрессию Деминга, существуют ли какие-либо процедуры SAS или R, которые мне доступны для выполнения регрессии Деминга на выборках начальной загрузки?
РЕДАКТИРОВАТЬ: Учитывая предложение Билла Хубера, я планирую посмотреть на границы регрессии ошибок в переменных с помощью регрессии и у на х и х на у. Мы уже знаем, что для одной версии OLS ответ по существу совпадает с ошибками в переменных, когда предполагается, что две дисперсии ошибок равны. Если это верно для другой регрессии, то я думаю, что это покажет, что регрессия Деминга дает подходящее решение. Вы согласны?
Чтобы удовлетворить запрос клиента, мне нужно выполнить запрошенный начальный анализ, который был неопределенно определен. С этической точки зрения я думаю, что было бы неправильно просто предоставить начальную загрузку, потому что она на самом деле не решает реальную проблему клиента, которая заключается в обосновании процедуры измерения анализа. Поэтому я дам им оба анализа и, по крайней мере, прошу, чтобы они сообщили FDA, что в дополнение к начальной загрузке я выполнил обратную регрессию и ограничил регрессии Деминга, которые я считаю более подходящими. Также я думаю, что анализ покажет, что их метод эквивалентен эталонному, и поэтому регрессия Деминга также адекватна.
Я планирую использовать программу R, которую @whuber предложил в своем ответе, чтобы дать мне возможность начать регрессию Деминга. Я не очень знаком с R, но думаю, что смогу это сделать. У меня установлен R вместе с R Studio. Будет ли это сделать достаточно легко для новичка, как я?
Также у меня есть SAS и мне удобнее программировать на SAS. Так что, если кто-нибудь знает способ сделать это в SAS, я был бы рад узнать об этом.