Использование срединного лака для выбора характеристик

В статье, которую я недавно читал, я обнаружил в своем разделе анализа данных следующее:

Затем таблица данных была разбита на ткани и клеточные линии, и две подтаблицы были отдельно отшлифованы по медиане (строки и столбцы были итеративно скорректированы, чтобы иметь медиану 0), прежде чем они были объединены в одну таблицу. Затем мы наконец выбрали для подмножества генов, экспрессия которых по крайней мере в 4 раза отличалась от медианы в этом наборе образцов, по крайней мере, в трех из протестированных образцов

Я должен сказать, что я действительно не следую рассуждениям здесь. Мне было интересно, не могли бы вы помочь мне ответить на следующие два вопроса:

Почему желательно / полезно корректировать медиану в наборах данных? Почему это должно быть сделано отдельно для разных типов образцов?
Как это не изменяет экспериментальные данные? Это известный способ выбора количества генов / переменных из большого набора данных, или это скорее случайный способ?

Спасибо,

feature-selection median genetics

— posdef
источник

Не могли бы вы уточнить, какие данные вы / они просматриваете? Я думаю, что, судя по тому, что вы процитировали - мне этот метод кажется очень специальным.

— Suncoolsu

@suncoolsu: это данные микрочипа, если вы знакомы с концепцией. Если нет, я мог бы, возможно, резюмировать это как; какие гены выражены, в какой степени в исследуемых образцах. Вот лучшее объяснение: en.wikipedia.org/wiki/Gene_expression_profiling

— posdef

@suncoolsu Почти наверняка данные анализа экспрессии генов.

— Кригар

Хорошо - я не был уверен, секвенирование следующего поколения также становится популярным.

— Suncoolsu

Ответы:

Tukey Median Polish, алгоритм используется в RMA нормализации микрочипов. Как вы, возможно, знаете, данные на микрочипах довольно шумные, поэтому им необходим более надежный способ оценки интенсивности зондов с учетом наблюдений для всех зондов и микрочипов. Это типичная модель, используемая для нормализации интенсивности зондов в массивах.

Y_{я J} знак равно μ_{я} + α_{J} + ε_{я J}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

я знак равно 1, ..., я J знак равно 1, ..., J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Где - интенсивность PM для зонда в массиве . - фоновый шум, и можно предположить, что он соответствует шуму в нормальной линейной регрессии. Однако, дистрибутивное предположение для может быть ограничительным, поэтому мы используем Tukey Median Polish, чтобы получить оценки для и . Это надежный способ нормализации по массивам, поскольку мы хотим отделить сигнал, интенсивность, вызванную зондом, от эффекта массива, . Мы можем получить сигнал путем нормализации для эффекта массива $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ $\alpha$ $\hat{\alpha_j}$ для всех массивов. Таким образом, у нас остались только пробные эффекты плюс некоторый случайный шум.

Ссылка, которую я цитировал ранее, использует срединную полировку Тьюки для оценки дифференциально выраженных генов или «интересных» генов путем ранжирования по эффекту зонда. Однако статья довольно старая, и, вероятно, в то время люди все еще пытались понять, как анализировать данные микрочипов. Документ непараметрических эмпирических методов Байеса Эфрона был опубликован в 2001 году, но, возможно, не получил широкого распространения.

Однако теперь мы много понимаем о микрочипах (статистически) и почти уверены в их статистическом анализе.

Данные на микрочипах довольно шумные, и RMA (который использует Median Polish) является одним из самых популярных методов нормализации, возможно, из-за его простоты. Другие популярные и сложные методы: GCRMA, VSN. Важно нормализовать, поскольку интерес представляет эффект зонда, а не эффект массива.

Как вы ожидаете, анализ мог бы принести пользу некоторым методам, которые используют заимствование информации между генами. Это могут быть байесовские или эмпирические байесовские методы. Может быть, бумага, которую вы читаете, старая, и этих техник не было до тех пор.

Что касается вашего второго замечания, да, они, вероятно, модифицируют экспериментальные данные. Но, я думаю, эта модификация для лучшего дела, следовательно, оправдана. Причина в том,

а) Данные микрочипов довольно шумные. Когда интерес представляет собой пробный эффект, необходима нормализация данных с помощью RMA, GCRMA, VSN и т. Д., И может быть полезно использовать любую специальную структуру в данных. Но я бы не стал делать вторую часть. Это происходит главным образом потому, что если мы не знаем структуру заранее, лучше не навязывать много предположений.

б) Большинство экспериментов с микрочипами носят исследовательский характер, то есть исследователи пытаются сузить выбор нескольких «интересных» генов для дальнейшего анализа или экспериментов. Если эти гены имеют сильный сигнал, такие модификации, как нормализация, не должны (существенно) влиять на конечные результаты.

Следовательно, изменения могут быть оправданы. Но я должен отметить, что чрезмерная нормализация может привести к неправильным результатам.

— suncoolsu
источник

+1 Это гораздо лучший ответ, чем моя попытка. Спасибо.

— Кригар

@posdef. Мне интересно, был ли какой-либо статистик, вовлеченный в статистический анализ статьи.

— Suncoolsu

спасибо за ваш подробный ответ. Я думаю, что тот факт, что это этап предварительной обработки, недостаточно хорошо объяснен (или просто предполагается, что он хорошо известен) в статье. Говоря об этом, статья опубликована в 2000 году (в журнале «Nature»), поэтому я полагаю, что по крайней мере какой-то статистик взглянул на их методы, если не участвовал в написании. Но, конечно, я могу только размышлять .. :)

— posdef

@posdef. Ок- классно отвечает на множество вопросов. 2000 год был временем, когда люди все еще пытались понять, как анализировать данные микрочипов. FDR тогда не был

— модным

Вы можете найти некоторые подсказки на страницах 4 и 5 этого

Это метод вычисления невязок для модели путем вычисления значений для , и так что если сведены в таблицу медиана каждой строки и каждого столбца равна 0.

Y_{я, J} знак равно м + a_{я} + б_{J} + е_{я, J}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

Более традиционный подход сводится к вычислению значений для , и так что среднее значение (или сумма) каждой строки и каждого столбца остатков равно 0. $m$ $a_i$ $b_j$

Преимущество использования медианы заключается в устойчивости к небольшому количеству выбросов; недостатком является то, что вы выбрасываете потенциально полезную информацию, если нет никаких выбросов.

— Генри
источник

спасибо за ответ и ссылку на ссылку. Однако я не вижу, как эта модель применима к рассматриваемой проблеме. учитывая, что данные представляют собой сравнительные значения выражений (читай: обилие), как можно определить , и ??

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

— Посеф

Если вместо этого вы берете модель изобилия, например, или аналогичную тогда вы можете сделать по существу одно и то же, сделав медиану каждой строки и каждого столбца таблицы остатков равной 0.

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$

— Генри

@ Генри Какую информацию «выбрасывают» со средним лаком, когда нет «выбросов» (и что именно вы подразумеваете под «выбросами» в любом случае)? В конце концов, вы можете восстановить данные точно по старшей медиане, медиане строк и столбцов, а также по остаточным значениям, которые представляют собой результат срединного полирования. Если вы имеете в виду, что остатки отбрасываются, то в каком смысле «средняя польская» (эквивалентная OLS) отличается в этом отношении?

— whuber

@whuber: остатки хранятся в обоих случаях. Среднее значение блеска учитывает, как далеко находятся наблюдения от центра (в некотором смысле, оно уравновешивает вес остатков), в то время как срединное значение блеска смотрит только на то, находятся ли они выше или ниже центра (в некотором смысле, оно балансирует количество остатков). Таким образом, информация о весе не используется при использовании медианы в качестве центра; это может быть хорошо, когда некоторые из существенных весов / остатков настолько сомнительны, что результат для центра не может быть доверенным, но подразумевает не использование информации, если нет.

— Генри

@ Генри Если вы можете восстановить все исходные данные из польского, то как «информация» не «используется»? Кстати, срединное полирование не ведет себя так, как вы, похоже, описываете: его остатки - это различия в значениях , а не в рангах данных.

— whuber

Похоже, вы читаете статью, в которой есть анализ генной дифференциальной экспрессии. Проведя некоторые исследования с использованием микрочипов, я могу поделиться тем небольшим знанием (надеюсь, правильным), которое я имею об использовании срединной полировки.

Использование срединной полировки на этапе суммирования предварительной обработки микроматрицы является в некоторой степени стандартным способом удаления данных выбросов с помощью чипов с исключительно точным совпадением (только для RMA).

Срединная полировка для данных микрочипов - это то, где у вас есть эффект микросхемы и зондирования в виде строк и столбцов:

для каждого набора зондов (состоящего из n номеров одного и того же зонда) на х чипах:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

где iv - значения интенсивности

Из-за изменчивости интенсивностей зондов, почти весь анализ данных микрочипов предварительно обрабатывается с использованием некоторой коррекции и нормализации фона перед суммированием.

Вот несколько ссылок на темы списков рассылки bioC, в которых рассказывается об использовании медианного полировки по сравнению с другими методами:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Данные о тканях и клеточных линиях обычно анализируются отдельно, потому что при культивировании клеток их профили экспрессии резко меняются по сравнению с собранными образцами ткани. Без большого количества бумаги трудно сказать, была ли уместна обработка образцов отдельно.

Этапы нормализации, коррекции фона и суммирования в конвейере анализа являются модификациями экспериментальных данных, но в необработанном состоянии эффекты микросхемы, пакетные эффекты, эффекты обработки будут затенять любой сигнал для анализа. Эти эксперименты с микрочипами генерируют списки генов, которые являются кандидатами для последующих экспериментов (КПЦР и т. Д.), Чтобы подтвердить результаты.

Насколько это необходимо, спросите 5 человек, какая разница в размерах необходима для того, чтобы ген считался дифференциально выраженным, и вы получите по крайней мере 3 разных ответа.

— kriegar
источник

Спасибо за обновления в вашем ответе, я думаю, что сейчас начинаю понимать. Так что, если я правильно понимаю, средняя полировка используется для оценки технической изменчивости в отношении зонда и чипа? ... перед экспериментом суммируется до 1 матрицы, содержащей значения экспрессии для генов в разных условиях?

— posdef

@posdef из моего понимания да. Для каждого набора зондов на чипе (зонды одинаковой последовательности) есть разбросанные по всему зонды. plmimagegallery.bmbolstad.com для некоторых псевдо изображений чипов. В дополнение к изменчивости в пределах одного чипа, существует изменчивость между чипами. Из-за технической изменчивости алгоритмы запускаются на необработанных значениях интенсивности, чтобы получить единственное «значение выражения» для набора зондов. Матрица этих значений затем подходит для определения того, являются ли гены дифференциально экспрессированными в разных условиях.

— Кригар