Биологический Фон
Со временем некоторые виды растений имеют тенденцию дублировать свои полные геномы, получая дополнительную копию каждого гена. Из-за нестабильности этой установки многие из этих генов затем удаляются, и геном перестраивается и стабилизируется, готовый к повторному дублированию. Эти события дублирования связаны с событиями видообразования и вторжения, и теория заключается в том, что дублирование помогает растениям быстрее адаптироваться к новым условиям.
Lupinus, род цветущего растения, вторгся в Анды в одном из самых быстрых событий видообразования, когда-либо обнаруженных, и, более того, в его геноме, по-видимому, больше повторяющихся копий, чем у самого близкого рода, Baptisia.
А теперь математическая проблема:
Геномы члена Lupinus и члена Baptisia были секвенированы, предоставляя необработанные данные о 25 000 генов у каждого вида. Опрашивая базу данных генов с известной функцией, теперь у меня есть «лучшее предположение» о том, какие функции может выполнять этот ген - например, Gene1298 может быть связан с «метаболизмом фруктозы, реакцией на солевой стресс, реакцией на холодный стресс». Я хочу знать, было ли событие дупликации между Baptisia и Lupinus, происходила ли потеря генов случайным образом, или гены, выполняющие определенные функции, были с большей вероятностью сохранены или удалены.
У меня есть скрипт, который будет выводить таблицу, как показано ниже. L * является подсчетом всех генов Lupinus, связанных с функцией. L 1+ представляет собой количество генов lupinus, связанных с функцией, где существует по меньшей мере одна дублирующаяся копия. Я могу заставить его производить L 2+, L 3+ и т. Д., Хотя L 1+ является гораздо более надежной группой, чем L 2+, благодаря процессу секвенирования.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Что я хотел бы сделать, это проверить, для каждой функции гена, существует ли больше или меньше генов с дубликатами, чем можно было бы ожидать случайно у Lupinus и Baptisia, и отличается ли Lupinus от Baptisia отношением наблюдаемого к ожидаемому.
Лучшее, что у меня есть
В предыдущих исследованиях по различным видам использовался анализ обогащения с точным тестом Фишера и коррекцией FDR для множественного отбора проб для проведения теста на непредвиденные обстоятельства в каждом ряду.
Было бы неплохо улучшить это; Я не уверен, что это звучит как лучший способ сделать это.
Glen_b предложил использовать GLM для анализа данных; Я поиграл с GLM в JMP8, что было интересно, но я признаюсь, что не совсем их понимаю.
Тем не менее, я пытаюсь использовать R вместо этого сейчас.
Для чего я это использую?
Первоначально предполагалось, что это будет частью короткого исследовательского проекта, который я делаю в университете, но теперь превратился в огромный проект аннотации генома. Зачем? Потому что биоинформатика это круто. Удивительно, когда можно взять строку A, T, C и G и использовать ее для вывода информации о событиях, которые произошли миллионы лет назад.
Само собой разумеется, я не собираюсь пытаться представить любой любезно предоставленный ответ как мою собственную работу. Я был бы рад включить подтверждение в документ, если я использую метод, предложенный здесь в представленной работе.