Я изучаю некоторые данные о геномном покрытии, которые в основном представляют собой длинный список (несколько миллионов значений) целых чисел, каждый из которых говорит о том, насколько хорошо (или «глубоко») охвачена эта позиция в геноме.
Я хотел бы найти «долины» в этих данных, то есть регионы, которые значительно «ниже», чем их окружение.
Обратите внимание, что размер долин, которые я ищу, может варьироваться от 50 оснований до нескольких тысяч.
Какую парадигму вы бы порекомендовали использовать для поиска этих долин?
ОБНОВИТЬ
Некоторые графические примеры для данных:
ОБНОВЛЕНИЕ 2
Определение долины - это, конечно, один из вопросов, с которыми я борюсь. Это очевидные для меня:
но есть несколько более сложных ситуаций. В целом, есть три критерия, которые я рассматриваю: 1. (Среднее? Максимальное?) Покрытие в окне по отношению к глобальному среднему. 2. Покрытие (...) в окне относительно его непосредственного окружения. 3. Насколько велико окно: если я вижу очень низкий охват для короткого промежутка, это интересно, если я вижу очень низкий охват для длинного промежутка, это также интересно, если я вижу слегка низкое покрытие для короткого промежутка, это не очень интересно , но если я вижу слегка низкий охват для длинного промежутка - это .. Так что это сочетание длины sapn и его покрытия. Чем дольше, тем выше я оставляю покрытие и все равно считаю его долиной.
Спасибо,
Дейв