Оценка дисперсии центрально-цензурированных нормальных образцов


11

Я нормально распределенные процессы , из которых я получаю небольшие образцы ( п , как правило , 10-30) , что я хочу использовать для оценки дисперсии. Но часто образцы находятся настолько близко друг к другу, что мы не можем измерить отдельные точки вблизи центра.

У меня есть смутное понимание того, что мы должны иметь возможность построить эффективную оценку с использованием упорядоченных выборок: например, если я знаю, что выборка содержит 20 точек, и что 10 группируются слишком близко к центру, чтобы проводить измерения по отдельности, но у меня есть дискретные измерения 5 с обеих сторон, существует ли стандартный / формульный подход для оценки дисперсии процесса, который позволяет оптимально использовать такие образцы?

(Обратите внимание, что я не думаю, что могу просто взвесить среднее значение по центру. Например, для 7 выборок возможно плотное скопление, в то время как еще три асимметрично смещены в одну сторону, но достаточно близко, мы не можем сказать это без более утомительной одиночной выборки. .)

Если ответ сложный, любые советы о том, что я должен исследовать, будут оценены. Например, это проблема порядка статистики? Может ли быть формальный ответ, или это вычислительная проблема?

Обновлены детали: приложение для анализа стрельбы по мишеням. Один базовый образец - это точка удара ( x, y ) одиночного выстрела по цели. Основной процесс имеет симметричное двумерное нормальное распределение, но корреляции между осями нет, поэтому мы можем рассматривать выборки { x } и { y } как независимые отрисовки из того же нормального распределения. (Можно также сказать, что основной процесс распределен по Рэлею, но мы не можем измерить выборочные вариации Рэлея, потому что мы не можем быть уверены в координатах «истинного» центра процесса, который при малых n может быть значительным от центра образца ( , ˉ y ).)Икс¯Y¯

Нам дают цель и количество выстрелов в нее. Проблема в том, что при n >> 3 точные пушки обычно стреляют в «рваную дыру», окруженную четкими выстрелами. Мы можем наблюдать x- и y- ширину отверстия, но мы не знаем, где в отверстии воздействовали неразличимые выстрелы.

Вот несколько примеров более проблемных целей:

[Пример цели с n = 10]

Пример цели с n = 100

(Конечно, в идеальном мире мы меняли / меняли цели после каждого выстрела, а затем агрегировали образцы для анализа. Есть ряд причин, которые часто нецелесообразны, хотя это делается, когда это возможно .)

Икся

Я полагаю, что для облегчения решения будет проще всего свести его к набору одномерных выборок из нормали с центральным интервалом ширины w > d , где d - диаметр снаряда, содержащий c < n «цензурированных» образцов.


(1) Является ли нормальное распределение предположением или у вас есть веские доказательства в его поддержку? (2) Проблема в том, что вы не можете точно посчитать данные рядом с центром? (Это могло бы отличаться от обычного значения «цензуры», заключающегося в том, что вы можете считать эти данные, но знаете только, что их значения лежат в определенных интервалах.)
whuber

@whuber: Да, у нас есть как фундаментальные, так и эмпирические доказательства того, что процесс обычно распространяется. И да, мы знаем точное количество точек в общей группе, и мы можем наблюдать интервал (интервалы), когда слишком много выборок лежат, чтобы определить отдельные значения.
2011 года

Спасибо, это полезно. Природа неопределенности все еще неясна, и хорошая модель для нее может мотивировать хорошее решение. Не могли бы вы предоставить иллюстрацию или пример или хотя бы немного подробнее описать процесс измерения?
whuber

@whuber: Обновлено. Если это поможет, я также постараюсь разместить ссылки на некоторые реальные образцы.
2011 года

Икся,(μ,σ2)σяВ(Икся,р)рВ(Икс,р)рИкс

Ответы:


2

Это интересная проблема. Во-первых, я бы не делал предположения о нормальном распределении. Похоже, что вы действительно ищете какую-то оценку рассеивания, которую вы применяете справедливо ко многим различным стрелкам, оружию, боеприпасам или чему-то еще.

Я бы попробовал перевернуть это. Вы не знаете точно, куда попали все пули, если не видите 10 отдельных отверстий (при условии 10 выстрелов). Но ты же знаешь, куда они не пошли. Это можно использовать для ограничения распространения, исходя из байесовской статистики, если вы хотите начать с распределения.

Идея, которая может быть лучше всего, заключается в том, чтобы перестать пытаться делать это математически и просто делать что-то разумное, как это. Возьмите цель и запустите процедуру обработки изображения, чтобы отметить выстрел через область, которая может быть не связана. Измерьте среднее значение и второй момент этого и используйте эти оценки. Если вы хотите пойти немного дальше и попытаться гауссифицировать его, вы можете запустить простой эксперимент Монте-Карло, чтобы получить калибровочный коэффициент.


Позвольте мне объяснить немного больше. Допустим, у вас есть 10 выстрелов и есть 6 прозрачных отверстий, где вы знаете, куда попали пули. Сначала возьмите эти точки и используйте их, чтобы ограничить ширину Гаусса. Следуя обычной рутине, это ограничивает сигму гауссовой сигмы (известное распределение. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415

Теперь, когда вы сделали это, вы хотите рассмотреть 4 пули, которые не сделали новых дыр. Поскольку пули независимы, эту новую вероятность (по сигма Гаусса) можно просто умножить. Таким образом, в основном для каждой из 4 пуль вы хотите умножить на вероятность того, что они не сделают новую дыру.
Dave31415

Простой способ сделать это с Монте-Карло состоит в том, чтобы извлечь набор сигм из вашего ограниченного дистрибутива и, используя эту сигму, рассчитать вероятность того, что вы не создадите новую дыру. Таким образом, нарисуйте много смоделированных выстрелов из этого и посчитайте, какая фракция не делает новые отверстия. Это может быть использовано для обновления вероятности. Затем перейдите к следующему и сделайте то же самое. Теперь у вас есть окончательная вероятность.
Dave31415

Последний комментарий С практической точки зрения, оценка сигмы не должна сильно зависеть от того, куда именно попали невидимые пули, если предположить, что они прошли предыдущие дыры. Это будет в основном ограничено теми, которые вы видите, которые определяют край. Это потому, что вероятность попадания пули в отверстие, которое вдвое дальше от центра, очень мала. Так что даже грубая монте-карло поможет вам приблизиться к оптимальной оценке.
Dave31415

Если мы не утверждаем нормальное (или другое) распределение, то маловероятно, что мы можем сказать что-то большее, чем поставить верхнюю или нижнюю границу того, что происходит в цензурированной области. В одномерном случае, когда у нас есть n снимков, подвергшихся цензуре, нижняя граница дисперсии предполагает, что все они попадают в одну внутреннюю точку, ближайшую к среднему, и (при условии, что среднее значение центрировано внутри), верхняя граница - это предположим, что цензурированные точки равномерно распределены по периферии внутренней части. Но если мы предположим, что основной процесс является нормальным, кажется, что мы должны быть в состоянии сделать что-то лучше.
Мут

0

С другой точки зрения, это можно увидеть в свете области пространственной статистики, которая создала ассортимент метрик, многие из которых были размещены в наборах инструментов (см., Например, https://www.google.com. /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

В Википедии (ссылка: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) на самом деле есть хорошая вводная страница, на которой обсуждаются такие понятия, как меры пространственной центральной тенденции и пространственной дисперсии. Чтобы процитировать Википедию на последнем:

«Для большинства применений пространственную дисперсию следует определять количественно способом, который не зависит от поворотов и отражений. Несколько простых мер пространственной дисперсии для набора точек могут быть определены с использованием ковариационной матрицы координат точек. Трасса, определитель и самое большое собственное значение ковариационной матрицы может использоваться в качестве меры пространственной дисперсии. Мера пространственной дисперсии, которая не основана на ковариационной матрице, представляет собой среднее расстояние между ближайшими соседями. [1] "

Связанные понятия включают в себя измерения пространственной однородности, функции К и L Рипли и, возможно, наиболее важные для анализа кластеров пуль, критерий Кузика – Эдвардса для кластеризации подгрупп в кластеризованных популяциях. Последний тест основан на сравнении (с использованием анализа «ближайшего соседа» для табулирования статистики) контрольной группы, которая в текущем контексте может основываться на фактических наблюдаемых целях, классифицированных как не отображающие кластеризацию, или в соответствии с теоретическим моделированием из скажем распределение Рэлея.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.