Стандартное отклонение нескольких измерений с неопределенностью


13

У меня есть два 2 часа данных GPS с частотой дискретизации 1 Гц (7200 измерений). Данные приведены в форме , где - погрешность измерения.(X,Xσ,Y,Yσ,Z,Zσ)Nσ

Когда я беру среднее из всех измерений (например, среднее значение Z за эти два часа), каково его стандартное отклонение? Конечно, я могу рассчитать стандартное отклонение от значений Z, но тогда я пренебрегаю тем, что существуют известные погрешности измерений ...

Редактировать: все данные с одной и той же станции, и все координаты пересматриваются каждую секунду. Из-за спутниковых группировок и т. Д. Каждое измерение имеет различную неопределенность. Цель моего анализа - найти смещение из-за внешнего события (т. Е. Землетрясения). Я хотел бы взять среднее значение для 7200 измерений (2 часа) до землетрясения и другое среднее значение для 2 часов после землетрясения, а затем рассчитать полученную разницу (например, по высоте). Чтобы указать стандартное отклонение этой разницы, мне нужно знать стандартное отклонение двух средних.


3
Хороший вопрос. Еще важнее то, что данные будут строго положительно коррелировать со временем: это окажет более глубокое влияние на ответ, чем изменение неопределенности измерений.
whuber

Взяв комментарий whuber и ответ Deathkill14, вы не дали нам достаточно информации, чтобы ответить правильно. Важно знать, как «работают» ошибки измеренияНапример, если погрешность измерения была положительной через 3 секунды, то более или менее вероятно, что она будет положительной через 4 секунды, т.е. есть ли последовательная корреляция? Во-вторых, если ошибка в была положительной в течение 3 секунд, более или менее вероятно, что ошибка в и / или будет положительной в течение 3 секунд? На 2 секунды? На 4 секунды? X,Y,ZXXYZ
Билл

Немного другой вопрос связан с тем, насколько систематична ошибка измерения? Предположим , я сказал : «Да, измерялась немного высоко на моей лужайке перед домом. является почти всегда измеряется немного высоко на моей лужайке перед домом.» Это было бы сумасшедшим утверждением? Работает ли ошибка измерения таким образом , что конкретное место может быть очень часто слишком высоко , а другой особое место может быть очень часто слишком низко, и т.д.»Или это все преходящее ошибка?XX
Билл

@ Билл: определенно есть последовательная корреляция. Погрешности измерений в большинстве случаев постоянны в течение двух часов. Тем не менее, они, как правило, больше, чем стандартное отклонение, рассчитанное по данным, что привело меня к этому вопросу.
traindriver

Ваш вопрос до сих пор не ясно указывает на существование последовательной корреляции. К сожалению, у вас есть три тщательно продуманных ответа, которые для вас не так полезны, как могли бы.
Glen_b

Ответы:


7

Я подозреваю, что предыдущие ответы на этот вопрос могут быть немного неправильными. Мне кажется, что оригинальный плакат действительно просят здесь можно было бы перефразировать, «учитывая ряд векторных измерений: с я = 1 , 2 , 3 , . . . , 7200 , и измерение ковариации : С я = ( X 2 σ , я 0 0 0 Y

θi=(XiYiZi)
i=1,2,3,...,7200как правильно рассчитать взвешенное по ковариации среднее для этой серии векторных измерений, а после этого как правильно рассчитать его стандартное отклонение? »Ответ на этот вопрос может быть встречается во многих учебниках, специализирующихся на статистике для физических наук. Одним из примеров, который мне особенно нравится, является Фредерик Джеймс,"Статистические методы в экспериментальной физике"
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
, 2-е издание, World Scientific, 2006, раздел 11.5.2, «Объединение независимых оценок», с. 323-324. Другой очень хороший, но более вводный текст, который описывает средневзвешенное вычисление для скалярных значений (в отличие от полных векторных величин, представленных выше), - это Филип Р. Бевингтон и Д. Кит Робинсон, «Сокращение данных и анализ ошибок». для физических наук » , 3-е издание, McGraw-Hill, 2003, раздел 4.1.x,« Взвешивание данных - неоднородные неопределенности ». Потому что вопрос плаката оказался по диагоналиковариационная матрица в этом случае (т. е. все недиагональные элементы равны нулю), задача фактически делится на три отдельные (т. е. X, Y, Z) скалярно-взвешенные средние задачи, поэтому анализ Бевингтона и Робинсона применяется одинаково хорошо здесь тоже.

В общем, отвечая на вопросы stackexchange.com, я обычно не считаю нужным переупаковывать длинные деривации, которые уже были представлены ранее в многочисленных учебниках - если вы хотите по-настоящему понять материал и понять, почему ответы выглядят как как они это делают, тогда вам действительно нужно просто пойти и прочитать объяснения, которые уже были опубликованы авторами учебника. Имея это в виду, я просто перейду прямо к повторению ответов, которые уже предоставили другие. По Фредерику Джеймсу, установив , средневзвешенное значение равно: θ m e a n = ( N i = 1 CN=7200и ковариацию взвешенного среднего значения является:Смесп=( N Σ я=1C - 1 я )-1 Этот ответ носит общий характер и будет действительным независимо от формыCiдаже для недиагональных ковариационных матриц измерения.

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ci

XiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanZmean,Zσ,mean

Может быть, мне было немного неясно, поэтому я добавил еще немного информации. Я не думаю, что мне нужно взвешивать свои измерения.
traindriver

1
Да, вы делаете. Рассмотрим крайний случай, просто как мысленный эксперимент: предположим, что у вас есть только 2 измерения GPS вместо 7200. Предположим также, что одно из измерений GPS имеет погрешность +/- 5 футов, в то время как другое имеет погрешность +/- - 5 миль. Число неопределенности буквально говорит вам, насколько потенциально неточны измерения. Это означает, что значение +/- 5 миль, вероятно, будет, по крайней мере, в нескольких милях от него. Вы действительно хотите включить это число в среднее значение каким-либо значимым образом? Взвешенное усреднение позволяет дисконтировать значения, которым нельзя доверять так сильно.
Стахира

1
Кстати, мой ответ имеет другое значение: в своем исходном сообщении вы упомянули, что причина, по которой вы не хотите просто использовать стандартное отклонение выборки, рассчитанное непосредственно из значений Z, заключается в том, что в этом случае вы своими словами, «пренебрегайте тем, что существуют известные погрешности измерения». В моем ответе (ну, действительно, неясном ответе из учебника, которым я просто делюсь с вами) используются известные неопределенности измерений, в точности как вы и просили. Просто он использует информацию в большем количестве мест (средний результат и стандартное отклонение), чем вы ожидали.
Стахира

Вы убедили меня.
traindriver

6

Это должно быть легко решено с помощью байесовского вывода. Вы знаете свойства измерения отдельных точек относительно их истинного значения и хотите вывести среднее значение по совокупности и SD, которые сгенерировали истинные значения. Это иерархическая модель.

Перефразируя проблему (основы Байеса)

Обратите внимание, что в то время как ортодоксальная статистика дает вам одно среднее значение, в байесовской системе вы получаете распределение достоверных значений среднего. Например, наблюдения (1, 2, 3) с SD (2, 2, 3) могли быть получены с помощью оценки максимального правдоподобия, равной 2, но также с помощью среднего значения 2,1 или 1,8, хотя и несколько менее вероятно (учитывая данные), чем MLE. Таким образом, в дополнение к SD, мы также выводим среднее значение .

Другое концептуальное отличие состоит в том, что вы должны определить состояние своего знания, прежде чем делать наблюдения. Мы называем это приоры . Вы можете заранее знать, что определенная область была отсканирована и находится в определенном диапазоне высот. Полное отсутствие знаний будет иметь одинаковые (-90, 90) градусы, как предшествующее в X и Y и, возможно, одинаковые (0, 10000) метров по высоте (над океаном, ниже самой высокой точки на земле). Вы должны определить распределения априоров для всех параметров, которые вы хотите оценить, т.е. получить апостериорные распределения для. Это верно и для стандартного отклонения.

Итак, перефразируя вашу проблему, я предполагаю, что вы хотите вывести достоверные значения для трех средних (X.mean, Y.mean, X.mean) и трех стандартных отклонений (X.sd, Y.sd, X.sd), которые могут иметь сгенерировал ваши данные.

Модель

Используя стандартный синтаксис BUGS (используйте WinBUGS, OpenBUGS, JAGS, stan или другие пакеты для запуска этого), ваша модель будет выглядеть примерно так:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Естественно, вы отслеживаете параметры .mean и .sd и используете их постеры для вывода.

моделирование

Я смоделировал некоторые данные как это:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Затем запустили модель, используя JAGS для 2000 итераций после 500 итераций. Вот результат для X.sd.

posterior for X.sd

Синий диапазон указывает на 95% наибольшую заднюю плотность или доверительный интервал (где вы полагаете, что параметр находится после наблюдения данных. Обратите внимание, что ортодоксальный доверительный интервал не дает вам этого).

Красная вертикальная линия - это оценка MLE необработанных данных. Обычно это тот случай, когда наиболее вероятный параметр в байесовской оценке также является наиболее вероятным (с максимальной вероятностью) параметром в ортодоксальной статистике. Но вы не должны заботиться о верхней части задней части. Среднее значение или медиана лучше, если вы хотите свести его к одному числу.

Обратите внимание, что MLE / top не на 5, потому что данные были сгенерированы случайным образом, а не из-за неправильной статистики.

Limitiations

Это простая модель, которая в настоящее время имеет несколько недостатков.

  1. Это не обрабатывает идентичность -90 и 90 градусов. Это может быть сделано, однако, путем создания некоторой промежуточной переменной, которая сдвигает экстремальные значения оценочных параметров в диапазон (-90, 90).
  2. X, Y и Z в настоящее время моделируются как независимые, хотя они, вероятно, коррелируют, и это следует учитывать для получения максимальной отдачи от данных. Это зависит от того, перемещалось ли измерительное устройство (последовательная корреляция и совместное распределение X, Y и Z даст вам много информации) или стоя на месте (независимость в порядке). Я могу расширить ответ, чтобы подойти к этому, если потребуется.

Я должен упомянуть, что есть много литературы по пространственным байесовским моделям, о которых я не осведомлен.


Спасибо за этот ответ. Это данные с фиксированной станции, но означает ли это, что данные независимы?
traindriver

@traindriver Вам нужно предоставить больше информации о проблеме логического вывода, с которой вы столкнулись, чтобы мы могли вам помочь. Вы можете расширить свой вопрос разделом «обновление», указав, по крайней мере, (1) это то же количество, которое измеряется многократно? Т.е. одинаковые координаты. Или область сканируется или ... (2) почему вы хотите определить среднее и сд? Если это область, возможно, вы захотите использовать SD в качестве оценки неровности или чего-то в этом роде.
Йонас Линделёв

Я добавил еще немного информации в исходное сообщение.
traindriver

3

Сначала я ввожу некоторые обозначения и решаю проблему, используя упомянутый вами простой подход. Тогда иди дальше. я используюZ сослаться на вектор Z вы дали.

Рассмотрим следующую модель, в которой отсутствует явная ошибка измерения: Z¯знак равноΣязнак равно1NμZ+εяN, где Z¯ это приблизительное среднее значение Z, и μZ является истинным средним значением Z. Здесь ε является вектором ошибок в ваших данных, и вы ожидаете, что если ваша выборка велика Z¯ будет сходиться к μZ, Если вы просто возьмете наблюдаемоеZ значения и усреднить их, вы получите Z¯ и если вы вычисляете стандартное отклонение образца, вы получите σ^, оценка истинного населения стандартного отклонения σ, Что если вы хотели бы использовать некоторые знания об ошибке измерения?

Во-первых, обратите внимание, что мы можем переформулировать исходную модель следующим образом: Zзнак равно1β+ε, где 1 является вектором единиц, и β будет в конечном итоге Z¯, Теперь это действительно похоже на регрессию, но мы все еще в основном просто получаем оценкуμZ, Если мы выполним регрессию, как это, мы также получим оценку для стандартной ошибкиε, что почти то, что мы хотим - это не что иное, как стандартная ошибка Z (но мы все еще хотим учесть ошибку измерения).

Мы можем дополнить нашу начальную модель, чтобы получить модель смешанных эффектов. Zзнак равно1β+QU+ε, где U вектор случайных эффектов, и Q это регрессор, относящийся Z в U, Как и в случае любого случайного эффекта, вам необходимо сделать предположение о распределенииU, Это правильно, чтоZσ распределение ошибки измерения для Z? Если да, это можно использовать для обеспечения распределения случайных эффектов. Как правило, программное обеспечение для выполнения базового моделирования смешанных эффектов предполагает, что случайные эффекты имеют нормальное распределение (со средним значением 0 ...), и оценивает дисперсию для вас. Возможно, вы можете попробовать это, чтобы проверить концепцию. Если вы хотите использовать свою предыдущую информацию о распределении погрешности измерения, вам нужна байесовская модель смешанных эффектов. Вы можете использовать R2OpenBUGS.

После оценки этой модели стандартная ошибка, которую вы получите для остатков εэто стандартная ошибка, к которой вы проявляете интерес. Интуитивно, компонент случайных эффектов модели поглощает некоторые вариации, которые вы можете объяснить, потому что знаете, что есть ошибка измерения. Это позволяет получить более релевантную оценку измененияε

См. Эту статью для более глубокого обсуждения этого подхода случайных эффектов для учета погрешности измерения. Ваша ситуация похожа на ту, которую авторы вводят дляD и его ошибка измерения искажена версия W, Пример в Разделе 4 может дать некоторое представление о вашей ситуации.

Как упомянул whuber, вы можете захотеть учесть автокорреляцию в ваших данных. Использование случайных эффектов не решит эту проблему.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.