В общегеномных ассоциативных исследованиях (GWAS):
- Каковы основные компоненты?
- Почему они используются?
- Как они рассчитываются?
- Можно ли провести исследование ассоциации всего генома без использования PCA?
В общегеномных ассоциативных исследованиях (GWAS):
Ответы:
В этом конкретном контексте PCA в основном используется для учета специфических для популяции изменений в распределении аллелей на SNP (или других ДНК-маркерах, хотя я только знаком со случаем SNP), который исследуется. Такая «популяционная субструктура» возникает главным образом вследствие различной частоты второстепенных аллелей у генетически отдаленных предков (например, японцев и чернокожих или европейцев-американцев). Общая идея хорошо объяснена в Популяционной Структуре и Собственном анализе Patterson et al. ( PLoS Genetics 2006, 2 (12)), или специальный выпуск Lancet по генетической эпидемиологии (2005, 366; большинство статей можно найти в Интернете, начиная с Cordell & Clayton, Genetic Association Studies ).
Построение главных осей следует из классического подхода к PCA, который применяется к масштабированной матрице (индивиды по SNP) наблюдаемых генотипов (AA, AB, BB; скажем, B является минорным аллелем во всех случаях), за исключением того, что может быть применена дополнительная нормализация для учета смещения населения. Все это предполагает, что частота минорного аллеля (принимающая значение в {0,1,2}) может рассматриваться как числовая, то есть мы работаем по аддитивной модели (также называемой аллельной дозировкой) или любой эквивалентной, которая имела бы смысл , Поскольку последующие ортогональные ПК будут учитывать максимальную дисперсию, это позволяет выделить группы лиц, различающихся по уровню частоты второстепенных аллелей. Программное обеспечение, используемое для этого, известно как Eigenstrat . Это также доступно вegscore()
функция из пакета GenABEL R (см. также GenABEL.org ). Стоит отметить, что были предложены другие методы выявления субструктуры населения, в частности реконструкция кластеров на основе моделей (см. Ссылки в конце). Дополнительную информацию можно найти, просмотрев проект Hapmap и доступное руководство, полученное из проекта Bioconductor . (Найдите в Google хорошие учебники Винса Дж. Кэри или Дэвида Клэйтона).
SD по крайней мере на одной из первых 20 основных осей; в некотором смысле это отбеливает образец. Обратите внимание, что любая такая мера расстояния генотипа (это также имеет место при использовании многомерного масштабирования вместо PCA) позволит обнаружить родственников или братьев и сестер. Программное обеспечение plink предоставляет дополнительные методы, см. Раздел в онлайн-справке.
Учитывая, что собственный анализ позволяет выявить некоторую структуру на уровне отдельных лиц, мы можем использовать эту информацию, пытаясь объяснить наблюдаемые изменения в данном фенотипе (или любое распределение, которое может быть определено в соответствии с бинарным критерием, например, болезнь или случай-контроль ситуация). В частности, мы можем скорректировать наш анализ с этими компьютерами (то есть с оценками факторов отдельных лиц), как показано в разделе «Анализ основных компонентов», который корректирует стратификацию в исследованиях ассоциаций по всему геному. Авторы Price et al. ( Nature Genetics 2006, 38 (8)) и более поздние работы (была прекрасная картина, показывающая оси генетических вариаций в Европе в географии зеркальной географии в Европе; Nature 2008; Рис 1А воспроизведен ниже). Также обратите внимание, что другим решением является проведение стратифицированного анализа (путем включения этнической принадлежности в GLM) - например, он легко доступен в пакете snpMatrix .
Ссылки