Перекрестная публикация моего вопроса от mathoverflow, чтобы найти некоторую помощь по конкретной статистике.
Я изучаю физический процесс, генерирующий данные, которые красиво проецируются в два измерения с неотрицательными значениями. Каждый процесс имеет (спроецированную) дорожку из точек - - см. Изображение ниже.
Образцы треков выделены синим цветом, проблемный тип трека был нарисован вручную зеленым цветом, а проблемная область - красным:
Каждый трек является результатом независимого эксперимента. Двадцать миллионов экспериментов были проведены в течение нескольких лет, но из этих двух тысяч проявляется особенность, которую мы изображаем как трек. Мы занимаемся только экспериментами, которые генерируют треки, поэтому наш набор данных составляет (приблизительно) две тысячи треков.
Вполне возможно , для трека , чтобы войти в область беспокойства, и мы ожидаем порядка в дорожки , чтобы сделать это. Оценить это число - вопрос под рукой:
Как мы можем рассчитать вероятность попадания произвольной дорожки в интересующую область?
Невозможно проводить эксперименты достаточно быстро, чтобы увидеть, как часто генерируются треки, которые попадают в интересующую область, поэтому нам необходимо экстраполировать имеющиеся данные.
Например, мы подгоняли значения , но это недостаточно для обработки данных, таких как зеленая дорожка - кажется, необходимо иметь модель, охватывающую оба измерения.
Мы установили минимальное расстояние от каждой трассы до района, в котором находится проблема, но мы не уверены, что это дает оправданный результат.
1) Есть ли известный способ приспособить распределение к данным этого типа для экстраполяции?
-или-
2) Есть ли очевидный способ использовать эти данные для создания модели для генерации треков? Например, используйте анализ главных компонентов на дорожках в качестве точек в большом пространстве, а затем подгоните распределение (Pearson?) К дорожкам, спроецированным на эти компоненты.