Статистические и математические концепции абсолютно одинаковы, понимая, что «семья» - это общий математический термин с техническими вариациями, адаптированными к различным обстоятельствам:
Параметрическое семейство - это кривая (или поверхность, или другое ее конечномерное обобщение) в пространстве всех распределений.
Остальная часть этого поста объясняет, что это значит. Кроме того, я не думаю, что что-либо из этого является спорным, ни математически, ни статистически (кроме одной незначительной проблемы, которая отмечена ниже). В поддержку этого мнения я привел много ссылок (в основном на статьи Википедии).
Эта терминология «семейств» имеет тенденцию использоваться при изучении классов функций в виде множества Y или «отображений». Учитывая область X , А семейство F отображений на X параметрироваться на некотором множестве thetas ; ( «параметры») является функцияCYYX FX Θ
F:X×Θ→Y
для которых (1) для каждого & ; , функция F θ : X → Y задается F & thetas ; ( х ) = Р ( х , θ ) в C Y и (2) Р сама по себе имеет некоторые "хорошие" свойства.θ∈ΘFθ:X→YFθ(x)=F(x,θ)CYF
Идея состоит в том, что мы хотим варьировать функции от до Y «плавным» или контролируемым образом. Свойство (1) означает, что каждая θ обозначает такую функцию, в то время как детали свойства (2) будут охватывать тот смысл, в котором «небольшое» изменение θ вызывает достаточно «небольшое» изменение F θ .XYθθFθ
Стандартный математический пример, близкий к упомянутому в вопросе, является гомотопией . В этом случае - категория непрерывных отображений из топологических пространств X в топологическое пространство Y ; Θ = [ 0 , 1 ] ⊂ R единичный интервал с его обычной топологией, а также потребовать , чтобы Р быть непрерывное отображением из топологического произведения X × thetas ; в Y . Это можно рассматривать как «непрерывную деформацию карты FCY XYΘ=[0,1]⊂RFX×ΘY до F 1. "Когда X = [ 0 , 1 ] сам является интервалом, такие отображения являютсякривымив Y, а гомотопия представляет собой плавную деформацию от одной кривой к другой.F0F1X=[0,1]Y
Для статистических приложений - это множество всех распределений на R (или на практике на R n для некоторого n , но для простоты изложения я сосредоточусь на n = 1 ). Мы можем отождествить его с набором всех неубывающих функций Кадляга R → [ 0 , 1 ], где замыкание их диапазона включает в себя как 0, так и 1 : это кумулятивные функции распределения или просто функции распределения. Таким образом, X = R иCYRRnnn=1R→[0,1]01X=R .Y=[0,1]
Семейство распределений является любое подмножество . CY Другое название семьи - статистическая модель. Он состоит из всех распределений, которые, как мы полагаем, управляют нашими наблюдениями, но в противном случае мы не знаем, какое распределение является действительным.
- Семья может быть пустой.
- сама семья.CY
- Семья может состоять из одного распределения или только конечного их числа.
Эти абстрактные теоретико-множественные характеристики представляют относительно небольшой интерес или полезность. Только когда мы рассматриваем дополнительную (соответствующую) математическую структуру на , эта концепция становится полезной. Но какие свойства C Y представляют статистический интерес? Некоторые, которые появляются часто:CYCY
-выпуклое множество: для любых двух распределений F , G ∈ C Y мы можем сформироватьраспределение смеси(1-t) F +t G ∈Yдля всехt∈[0,1]. Это своего рода «гомотопности» отFкG.CYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG
Большие части поддерживают различные псевдометрики, такие как расхождение Кульбака-Лейблера или тесно связанная метрика информации Фишера.CY
имеет аддитивную структуру: соответствующая любых двух распределенийFиGявляется их суммой, Р ⋆ С .CYFGF⋆G
поддерживает много полезных, естественных функций, часто называемых «свойствами». К ним относятся любой фиксированный квантиль (например, медиана), а такжекумулянты.CY
является подмножествомфункционального пространства. Как таковой, он наследует много полезных метрик, таких какsup-норма( L ∞- норма), заданная как | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | ,CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Естественные действия группы на индуцируют действия на C Y . Наиболее распространенными действиями являются трансляции T μ : x → x + μ и масштабирования S σ : x → x σ для σ > 0 . Влияние, которое они оказывают на распределение, заключается в отправке F в распределение, определяемое как F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Это приводит к понятиям семейства масштаба и их обобщений. (Я не предоставляю ссылку, потому что обширные поиски в Интернете приводят к множеству различных определений: здесь, по крайней мере, может быть немного противоречий.)Fμ,σ(x)=F((x−μ)/σ)
Важные свойства зависят от статистической проблемы и от того, как вы собираетесь анализировать данные. Рассмотрение всех вариантов, предложенных предыдущими характеристиками, заняло бы слишком много места для этой среды. Давайте сосредоточимся на одном общем важном приложении.
Взять, к примеру, Максимальное правдоподобие. В большинстве приложений вы захотите использовать исчисление для получения оценки. Чтобы это работало, вы должны уметь «брать дериваты» в семье.
( Технический стороне: Обычный способ , в котором это достигается заключается в выборе домена & для D ≥ 0 и указать непрерывный, локально обратимое функцию р из & thetas в C Y (это означает , что для каждого. & Thetas ; ∈ & thetas ; есть существует шар B ( θ , ϵ ) с ϵ > 0, для которого p ∣ B ( θ , ϵ ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 взаимно однозначно. Другими словами, если мы изменим θ на достаточно малую величину, мы всегда получим другое распределение.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
Следовательно, в большинстве приложений ML мы требуем , чтобы быть непрерывным (и , надеюсь, дифференцируема почти всюду) в & thetas компонента. (Без преемственности максимизация вероятности обычно становится неразрешимой проблемой.) Это приводит к следующему ориентированному на вероятность определению параметрического семейства :pΘ
Параметрическое семейство (одномерных) распределений представляет собой локально обратимое отображение где Θ ⊂ R n , для которого (a) каждый F θ является функцией распределения и (b) для каждого x ∈ R , функция L x : θ → [ 0 , 1 ] определяется как L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) непрерывен и почти везде дифференцируем.
Обратите внимание, что параметрическое семейство - это больше, чем просто набор F θ : оно также включает конкретный способ, которым значения параметра θ соответствуют распределениям.FFθθ
Давайте в итоге приведем несколько иллюстративных примеров.
Пусть - множество всех нормальных распределений. Как дано, это не параметрическая семья: это просто семья. Чтобы быть параметрическим, мы должны выбрать параметризацию. Одним из способов является выбор Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
и отображение ( μ , σ ) на нормальное распределение со средним μ
и дисперсией σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
Множество пуассоновских распределений(λ) представляет собой параметрическое семейство с .λ∈Θ=(0,∞)⊂R1
(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ−F(x)+G(x)
Θ⊂R4
CYCYp:Θ→CYCYΘCY