Tukey Median Polish, алгоритм используется в RMA нормализации микрочипов. Как вы, возможно, знаете, данные на микрочипах довольно шумные, поэтому им необходим более надежный способ оценки интенсивности зондов с учетом наблюдений для всех зондов и микрочипов. Это типичная модель, используемая для нормализации интенсивности зондов в массивах.
i = 1 , … , I
Yя ж= μя+ αJ+ ϵя ж
я = 1 , … , яj = 1 , … , J
Где - интенсивность PM для зонда в массиве . - фоновый шум, и можно предположить, что он соответствует шуму в нормальной линейной регрессии. Однако, дистрибутивное предположение для может быть ограничительным, поэтому мы используем Tukey Median Polish, чтобы получить оценки для и . Это надежный способ нормализации по массивам, поскольку мы хотим отделить сигнал, интенсивность, вызванную зондом, от эффекта массива, . Мы можем получить сигнал путем нормализации для эффекта массива l o g i t h j t h ϵ i j ϵ ^ μ i ^ α j α ^ α jYя жл о гят чJт чεя жεμя^αJ^ααJ^для всех массивов. Таким образом, у нас остались только пробные эффекты плюс некоторый случайный шум.
Ссылка, которую я цитировал ранее, использует срединную полировку Тьюки для оценки дифференциально выраженных генов или «интересных» генов путем ранжирования по эффекту зонда. Однако статья довольно старая, и, вероятно, в то время люди все еще пытались понять, как анализировать данные микрочипов. Документ непараметрических эмпирических методов Байеса Эфрона был опубликован в 2001 году, но, возможно, не получил широкого распространения.
Однако теперь мы много понимаем о микрочипах (статистически) и почти уверены в их статистическом анализе.
Данные на микрочипах довольно шумные, и RMA (который использует Median Polish) является одним из самых популярных методов нормализации, возможно, из-за его простоты. Другие популярные и сложные методы: GCRMA, VSN. Важно нормализовать, поскольку интерес представляет эффект зонда, а не эффект массива.
Как вы ожидаете, анализ мог бы принести пользу некоторым методам, которые используют заимствование информации между генами. Это могут быть байесовские или эмпирические байесовские методы. Может быть, бумага, которую вы читаете, старая, и этих техник не было до тех пор.
Что касается вашего второго замечания, да, они, вероятно, модифицируют экспериментальные данные. Но, я думаю, эта модификация для лучшего дела, следовательно, оправдана. Причина в том,
а) Данные микрочипов довольно шумные. Когда интерес представляет собой пробный эффект, необходима нормализация данных с помощью RMA, GCRMA, VSN и т. Д., И может быть полезно использовать любую специальную структуру в данных. Но я бы не стал делать вторую часть. Это происходит главным образом потому, что если мы не знаем структуру заранее, лучше не навязывать много предположений.
б) Большинство экспериментов с микрочипами носят исследовательский характер, то есть исследователи пытаются сузить выбор нескольких «интересных» генов для дальнейшего анализа или экспериментов. Если эти гены имеют сильный сигнал, такие модификации, как нормализация, не должны (существенно) влиять на конечные результаты.
Следовательно, изменения могут быть оправданы. Но я должен отметить, что чрезмерная нормализация может привести к неправильным результатам.