У меня есть набор данных, который содержит ~ 7500 анализов крови от ~ 2500 человек. Я пытаюсь выяснить, увеличивается ли вариабельность анализов крови с течением времени между двумя тестами. Например - я беру вашу кровь для базового теста, а затем сразу же беру второй образец. Через полгода я нарисую еще один образец. Можно ожидать, что разница между базовым и немедленным повторным тестами будет меньше, чем разница между базовым и шестимесячным тестом.
Каждая точка на графике ниже отражает разницу между двумя тестами. Х - количество дней между двумя испытаниями; Y - размер разницы между двумя тестами. Как вы можете видеть, тесты не равномерно распределены по X - исследование, на самом деле, не предназначалось для решения этого вопроса. Поскольку точки очень сильно сложены в среднем, я включил 95% (синие) и 99% (красные) квантильные линии на основе 28-дневных окон. Они, очевидно, тянутся к более экстремальным точкам, но вы поняли идею.
альтернативный текст http://a.imageshack.us/img175/6595/diffsbydays.png
Мне кажется, что изменчивость довольно стабильна. Во всяком случае, это выше, когда тест повторяется в течение короткого периода времени - это ужасно нелогично. Как я могу решить эту проблему систематическим образом, учитывая различные n в каждый момент времени (и некоторые периоды без тестов вообще)? Ваши идеи очень ценятся.
Просто для справки, это распределение количества дней между тестом и повторным тестированием:
альтернативный текст http://a.imageshack.us/img697/6572/testsateachtimepoint.png