Как найти режим функции плотности вероятности?


14

Вдохновленный моим другим вопросом , я хотел бы спросить, как найти режим функции плотности вероятности (PDF) функции ?е(Икс)

Есть ли какая-нибудь процедура «поваренной книги» для этого? Видимо, эта задача гораздо сложнее, чем кажется на первый взгляд.


3
Если вам интересно узнать об очень разных ответах, обратите внимание, что ответ Ника * относится к оценке по выборке , а не к ситуации, когда у вас есть известный pdf; Я прочитал ваш вопрос как вопрос о случае с известным pdf, но это очень полезный пост, если вы хотите посмотреть, как делать что-то из примеров. ... (* Пьер также об оценке из выборки)
Glen_b -Восстановить Монику

Ответы:


13

Сказать «режим» означает, что в дистрибутиве есть один и только один. В общем случае дистрибутив может иметь много режимов или (возможно) ни одного.

Если существует более одного режима, вам нужно указать, хотите ли вы все из них или только глобальный режим (если есть только один).

Предполагая, что мы ограничиваемся унимодальными распределениями *, так что мы можем говорить о «режиме», они находятся так же, как и нахождение максимумов функций в более общем смысле.

* обратите внимание, что на странице написано « как термин« режим »имеет несколько значений, так же как и термин« унимодальный » » и предлагает несколько определений режима - которые могут изменить то, что именно считается режимом, независимо от того, есть ли 0 1 или больше - а также меняет стратегию их выявления. Обратите особое внимание на то, как обычно «более общая» формулировка того, что такое унимодальность в первом абзаце: « унимодальность означает, что существует только одно высшее значение, как-то определенное ».

Одно определение, предлагаемое на этой странице:

Режим непрерывного распределения вероятностей - это значение, при котором функция плотности вероятности (pdf) достигает своего максимального значения.

Поэтому, учитывая конкретное определение режима, вы находите его так же, как и конкретное определение «наибольшего значения» при работе с функциями в более общем смысле (при условии, что распределение является унимодальным согласно этому определению).

В математике существует множество стратегий для выявления таких вещей в зависимости от обстоятельств. См. Раздел «Поиск функциональных максимумов и минимумов» на странице Википедии о максимумах и минимумах, где дается краткое обсуждение.

Например, если все достаточно хорошо - скажем, мы имеем дело с непрерывной случайной величиной, где функция плотности имеет непрерывную первую производную - вы можете продолжить, пытаясь найти, где производная функции плотности равна нулю, и проверить тип критической точки (максимальная, минимальная, горизонтальная точка перегиба). Если есть только одна такая точка, которая является локальным максимумом, это должен быть режим унимодального распределения.

Однако в целом все более сложно (например, режим не может быть критической точкой), и вступают в действие более широкие стратегии для нахождения максимумов функций.

Иногда найти, где производные равны нулю, алгебраически может быть сложно или, по крайней мере, обременительно, но все же возможно определить максимумы другими способами. Например, может случиться так, что при идентификации режима унимодального распределения можно использовать соображения симметрии. Или можно использовать какой-либо числовой алгоритм на компьютере, чтобы найти режим численно.

Вот несколько случаев, которые иллюстрируют типичные вещи, которые вы должны проверить - даже когда функция является унимодальной и, по крайней мере, кусочно-непрерывной.

введите описание изображения здесь

Так, например, мы должны проверить конечные точки (центральная диаграмма), точки, где производная меняет знак (но не может быть нулем; первая диаграмма), и точки разрыва (третья диаграмма).

В некоторых случаях вещи могут быть не такими аккуратными, как эти три; Вы должны попытаться понять характеристики конкретной функции, с которой вы имеете дело.


Я не затрагивал многовариантный случай, когда даже когда функции довольно «хороши», просто найти локальные максимумы может быть существенно сложнее (например, численные методы для этого могут потерпеть неудачу в практическом смысле, даже если они логически должны преуспеть в конце концов).


1
+1 Как небольшое замечание, глобальный режим тоже может быть не уникальным; например, плотность смеси с равными весами и N ( - 1 , 1 ) случайной величины. N(1,1)N(-1,1)
Дилип Сарват

@Dilip Я добавлю немного текста об этом.
Glen_b

1
@DilipSarwate Также моды из совместного распределения могут отличаться от режимов из маргинальных распределений.
Марсело Вентура

17

Этот ответ полностью фокусируется на оценке режима из выборки с акцентом на один конкретный метод. Если есть какой-то сильный смысл, в котором вы уже знаете плотность, аналитически или численно, тогда предпочтительный ответ, вкратце, заключается в непосредственном поиске одного максимума или нескольких максимумов, как в ответе @Glen_b.

«Режимы половины выборки» могут быть рассчитаны с использованием рекурсивного выбора половины выборки с наименьшей длиной. Хотя он имеет более длинные корни, Биккель и Фрювирт (2006) дали отличное представление об этой идее.

Идея оценки моды как середины кратчайшего интервала, содержащего фиксированное количество наблюдений, восходит, по крайней мере, к Далениусу (1965). См. Также Robertson and Cryer (1974), Bickel (2002) и Bickel and Frühwirth (2006) о других оценках моды.

Статистика порядка выборки из значений x определяется как x ( 1 )x ( 2 )x ( n - 1 )x ( n ) .NИксx(1)x(2)x(n1)x(n)

Режим половинной выборки здесь определяется с использованием двух правил.

Правило 1. Если , режим половинной выборки равен x ( 1 ) . Если n = 2 , режим половинной выборки равен ( x ( 1 ) + x ( 2 ) ) / 2 . Если n = 3 , режим половинной выборки равен ( x ( 1 ) + x ( 2 ) ) / 2, если x ( 1 ) и x ( 2).n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1) ближе, чем x ( 2 ) и x ( 3 ) ,( x ( 2 ) + x ( 3 ) ) / 2,если верно обратное, и x ( 2 ) в противном случае.x(2)x(2)x(3)(x(2)+x(3))/2x(2)

Правило 2. Если , мы применяем рекурсивный выбор до тех пор, пока не останется 3 или меньше значений. Сначала пусть h 1 = n / 2 . Самая короткая половина данных от ранга k до ранга k + h 1 идентифицируется, чтобы минимизировать x ( k + h 1 ) - x ( k ) в течение k = 1 , , n - h 1 . Тогда самая короткая половина из нихn43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1 значение определяетсяпомощью ч 2 = часа 1 / 2 , и так далее. Чтобы закончить, используйте Правило 1.h1+1h2=h1/2

Идея определения самой короткой половины применяется в «краткости», названной Дж. В. Тьюки, и введена в исследовании устойчивости Принстона оценок местоположения Эндрюсом, Биккелем, Хампелем, Хубером, Роджерсом и Тьюки (1972, с. 26) как среднее кратчайшей половины длины для h = n / 2 . Rousseeuw (1984), основываясь на предложении Hampel (1975), указал, что средняя точка самой короткой половины ( x k + x ( k + h )x(k),,x(k+h)h=n/2 - метод определения местоположения для наименьшего квадрата (LMS) для x . См. Rousseeuw (1984) и Rousseeuw and Leroy (1987) для применения LMS и связанных идей для регрессии и других проблем. Обратите внимание, что эта средняя точка LMS также называется кратчайшей в более поздней литературе (например, Maronna, Martin and Yohai 2006, p.48). Кроме того, самую короткую половину также иногда называют короткой, как указывает название Grübel (1988). Для реализации Stata и более подробно, см. Из SSC.(xk+x(k+h))/2xshorth

Некоторые общие комментарии следуют за преимуществами и недостатками режимов половинной выборки, с точки зрения как практических аналитиков данных, так и математических или теоретических статистиков. Каким бы ни был проект, всегда будет целесообразно сравнить результаты со стандартными сводными показателями (например, медианы или средние значения, включая геометрические и гармонические средние) и связать результаты с графиками распределений. Более того, если вас интересует существование или степень бимодальности или мультимодальности, лучше будет непосредственно взглянуть на подходящие сглаженные оценки функции плотности.

Оценка режима Суммируя, где данные наиболее плотны, режим половинной выборки добавляет автоматическую оценку режима в панель инструментов. Более традиционные оценки режима, основанные на определении пиков на гистограммах или даже графиках плотности ядра, чувствительны к решениям о происхождении или ширине бина или типе ядра и полуширине ядра, и в любом случае их сложнее автоматизировать. При применении к распределениям, которые являются унимодальными и приблизительно симметричными, мода половинной выборки будет близка к среднему и срединному, но более устойчива, чем среднее значение к выбросам в любом хвосте. При применении к распределениям, которые являются унимодальными и асимметричными, режим половинной выборки, как правило, будет намного ближе к режиму, идентифицированному другими методами, чем среднее или медианное значение.

Простота Идея режима половинной выборки довольно проста и ее легко объяснить студентам и исследователям, которые не считают себя специалистами по статистике.

Графическая интерпретация Режим половинной выборки может быть легко связан со стандартными отображениями распределений, такими как графики плотности ядра, совокупные распределения и квантильные графики, гистограммы и графики стволов и листьев.

В то же время учтите, что

Бесполезно для всех распределений. При применении к распределениям, имеющим приблизительно J-образную форму, режим половинной выборки будет приближаться к минимуму данных. Применительно к распределениям, которые имеют приблизительно U-образную форму, мода половинной выборки будет в пределах того, какая половина распределения имеет более высокую среднюю плотность. Ни то, ни другое поведение не кажется особенно интересным или полезным, но в равной степени нет необходимости призывать сводки в виде одной моды для J-образных или U-образных распределений. Для U формы, Бимодальность делает идею одномодового тоо, если не инвалид.

Галстуки Самая короткая половина не может быть определена однозначно. Даже с измеренными данными, округление сообщенных значений может часто вызывать связи. Что делать с двумя или более короткими половинками, мало обсуждается в литературе. Обратите внимание, что связанные половины могут либо перекрываться, либо не пересекаться.

hsmodettt/2

9,4,1,0,1,4,90.501+n/2nn, что трудно достичь с учетом других пожеланий, особенно то, что длина окна никогда не должна уменьшаться с размером выборки. Мы предпочитаем полагать, что это небольшая проблема с наборами данных разумного размера.

1+n/2nnn=1,n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers и JW Tukey. 1972. Надежные оценки местоположения: обзор и достижения. Принстон, Нью-Джерси: издательство Принстонского университета.

Бикель, Д.Р. 2002. Надежные оценки моды и асимметрии непрерывных данных. Вычислительная статистика и анализ данных 39: 153-163.

Бикель, Д.Р. и Р. Фрювирт. 2006. О быстрой и надежной оценке режима: сравнение с другими оценками с приложениями. Вычислительная статистика и анализ данных 50: 3500-3530.

Далениус, Т. 1965. Режим - пренебрегаемый статистический параметр. Журнал, Королевское статистическое общество A 128: 110-117.

Grübel, R. 1988. Длина шорта. Летопись статистики 16: 619-628.

Hampel, FR 1975. За пределами параметров местоположения: надежные концепции и методы. Бюллетень, Международный статистический институт 46: 375-382.

Maronna, RA, RD Martin и VJ Yohai. 2006. Надежная статистика: теория и методы . Чичестер: Джон Уайли.

Робертсон, Т. и Дж. Д. Крайер. 1974. Итерационная процедура оценки режима. Журнал, Американская статистическая ассоциация 69: 1012-1016.

Rousseeuw, PJ 1984. Наименьшая медиана квадратов регрессии. Журнал, Американская статистическая ассоциация 79: 871-880.

Руссеув, ПиДжей и А.М. Леруа. 1987. Робастная регрессия и обнаружение выбросов . Нью-Йорк: Джон Уайли.

Эта учетная запись основана на документации для

Кокс, Нью-Джерси, 2007. HSMODE: модуль Stata для расчета режимов половинной выборки, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .

См. Также веб-сайт Дэвида Р. Биккеля здесь для получения информации о реализации в другом программном обеспечении.


5

Если у вас есть образцы из распределения в векторе "х", я бы сделал:

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

Вы должны настроить функцию плотности так, чтобы она была достаточно плавной в верхней части ;-).

Если у вас есть только плотность распределения, я бы использовал оптимизатор, чтобы найти режим (REML, LBFGS, simplex и т. Д.) ...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

Или используйте пробоотборник Монте-Карло, чтобы получить несколько проб из дистрибутива (пакет rstan) и используйте процедуру, описанную выше. (Во всяком случае, пакет Stan как «оптимизирующая» функция для получения режима распространения).


Кажется, что такие оценки больше никогда не используются. Вы должны указать ширину ядра, чтобы использовать оценки плотности ядра. С другой стороны, HSM и HRM вообще не нуждаются в настройке и работают в линейном времени.
Виктор
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.