Я постараюсь добавить к другому ответу. Во-первых, полнота - это техническое условие, которое в основном оправдывается теоремами, в которых оно используется. Итак, давайте начнем с некоторых связанных понятий и теорем, где они происходят.
Пусть X=(X1,X2,…,Xn) представляет вектор данных iid, который мы моделируем как имеющий распределение е( x ; θ ) , θ ∈ Θ где параметр θ управляющий данными, неизвестен. T= Т( X) является достаточным , если условное распределение X∣T не зависит от параметра & θ . V=V(X) являетсявспомогательным,если распределениеV не зависит отθ (в пределах семействаf(x;θ) ). U=U(X) являетсянесмещенной оценкой нуля,если его ожидание равно нулю, независимо отθ . S=S(X) -полная статистика,если любой несмещенный оценщик нуля, основанный наS , тождественно равен нулю, то есть еслиEg(S)=0(for all θ) тогдаg(S)=0 ae (для всехθ ).
Теперь предположим, что у вас есть две разные несмещенные оценки θ основанные на достаточной статистике T , g1(T),g2(T) . То есть в символах
Eg1(T)=θ,Eg2(T)=θ
иP(g1(T)≠g2(T))>0(для всехθ). Тогдаg1(T)−g2(T)является несмещенной оценкой нуля, которая не тождественно равна нулю, доказывая, чтоTне является полным. Таким образом, полнота достаточной статистикиTдает нам то, что существует только одна единственная несмещенная оценкаθна основании T . Это уже очень близко к теореме Лемана – Шеффе.
Давайте посмотрим на некоторые примеры. Предположим, что X1,…,Xn теперь одинаковы на интервале (θ,θ+1) . Мы можем показать, что ( X(1)<X(2)<⋯<X(n) - статистика порядка) пара (X(1),X(n)) достаточна, но не полна, потому что разница X(n)−X(1) является вспомогательным, мы можем вычислить его ожидание, пусть оно будетc(которое является функциейтолькоотn), и тогдаX(n)−X(1)−cбудет несмещенной оценкой нуля который не тождественно равен нулю. Таким образом, наша достаточная статистика в этом случае не является полной и достаточной. И мы можем видеть, что это значит: существуют функции достаточной статистики, которые не информативны относительноθ(в контексте модели). Это не может произойти с полной достаточной статистикой; это в некотором смысле максимально информативно, поскольку никакие его функции неинформативны. С другой стороны, если есть некоторая функция минимально достаточной статистики, которая имеет нулевое ожидание, которое можно рассматривать как шумовой член , слагаемые возмущения / шума в моделях имеют нулевое ожидание. Таким образом, мы могли бы сказать, что неполная достаточная статистика содержит некоторый шум .
Look again at the range R=X(n)−X(1) in this example. Since its distribution does not depend on θ, it doesn't by itself alone contain any information about θ. But, together with the sufficient statistic, it does! How? Look at the case where R=1 is observed.Then, in the context of our (known to be true) model, we have perfect knowledge of θ! Namely, we can say with certainty that θ=X(1). You can check that any other value for θ then leads to either X(1) or X(n) being an impossible observation, under the assumed model. On the other hand, if we observe R=0.1, then the range of possible values for θ is rather large (exercise ...).
In this sense, the ancillary statistic R does contain some information about the precision with which we can estimate θ based on this data and model. In this example, and others, the ancillary statistic R "takes over the role of the sample size". Usually, confidence intervals and such needs the sample size n, but in this example, we can make a conditional confidence interval this is computed using only R, not n (exercise.)
This was an idea of Fisher, that inference should be conditional on some ancillary statistic.
Теперь теорема Басу: если T вполне достаточно, то он не зависит от какой-либо вспомогательной статистики. То есть вывод, основанный на полной достаточной статистике, проще, поскольку нам не нужно рассматривать условный вывод. Обусловливание статистикой, которая не зависит от T , конечно, ничего не меняет.
Тогда, последний пример, чтобы дать больше интуиции. Измените наш пример равномерного распределения на равномерное распределение на интервале (θ1,θ2) (с θ1<θ2 ). В этом случае статистика (X(1),X(n)) является полной и достаточной. Что изменилось? Мы можем видеть, что полнота действительно свойство модели. In the former case, we had a restricted parameter space. This restriction destroyed completeness by introducing relationships on the order statistics. By removing this restriction we got completeness! So, in a sense, lack of completeness means that the parameter space is not big enough, and by enlarging it we can hope to restore completeness (and thus, easier inference).
Some other examples where lack of completeness is caused by restrictions on the parameter space,
see my answer to: What kind of information is Fisher information?
Let X1,…,Xn be iid Cauchy(θ,σ) (a location-scale model). Then the order statistics in sufficient but not complete. But now enlarge this model to a fully nonparametric model, still iid but from some completely unspecified distribution F. Then the order statistics is sufficient and complete.
For exponential families with canonical parameter space (that is, as large as possible) the minimal sufficient statistic is also complete. But in many cases, introducing restrictions on the parameter space, as with curved exponential families, destroys completeness.
A very relevant paper is An Interpretation of Completeness and
Basu's Theorem.