МЕНЬШЕ, что позволяет разрывы


14
  • Существует ли метод моделирования, такой как LOESS, который допускает ноль, один или несколько разрывов, где время разрывов не известно априори?
  • Если метод существует, есть ли существующая реализация в R?

1
разрывы при известных значениях x или при неизвестных значениях x? (известный х достаточно просто)
Glen_b

@glen Я обновил вопрос: меня интересуют ситуации, когда сроки разрывов не известны априори.
Джером Энглим

Это может быть спорный / глупый вопрос, но вы говорите «время»: это для использования с временными рядами? Я полагаю, что большинство ответов ниже предполагают это («точка изменения и т. Д.»), Хотя LOESS может применяться в ситуациях, не связанных с временными рядами, с разрывами. Я думаю.
Уэйн

Ответы:


15

Звучит так, как будто вы хотите выполнить обнаружение нескольких точек изменения с последующим независимым сглаживанием внутри каждого сегмента. (Обнаружение может быть онлайн или нет, но ваше приложение вряд ли будет онлайн.) Об этом много литературы; Поиски в интернете плодотворны.

  • Д. А. Стивенс написал полезное введение в обнаружение байесовской точки изменения в 1994 г. (Приложение. Стат. 43 # 1, стр. 159-178: JSTOR ).
  • Совсем недавно Пол Фирнхед проделал хорошую работу (например, Точный и эффективный байесовский вывод для множественных проблем с точками изменения , Stat Comput (2006) 16: 203-213: Free PDF ).
  • Существует рекурсивный алгоритм, основанный на прекрасном анализе D Barry & JA Hartigan
    • Модели разделения продуктов для моделей точек изменения, Ann. Стат. 20: 260-279: JSTOR ;
    • Байесовский анализ для проблем с переменными точками, JASA 88: 309-319: JSTOR .
  • Одна реализация алгоритма Барри и Хартигана описана в O. Seidou & TBMJ Ourda, Обнаружение множественных точек изменения на основе рекурсии в многомерной линейной регрессии и применении к речным потокам, Water Res. Рез., 2006: Бесплатный PDF .

Я не искал никаких реализаций R (я кодировал одну из них в Mathematica некоторое время назад), но был бы признателен, если бы вы нашли такую.


3
Я нашел пакет bcp R jstatsoft.org/v23/i03/paper, который реализует алгоритм Барри и Хартигана
Jeromy Anglim

@Jeromy: Спасибо за пакет R и за вставку ссылок на ссылки.
whuber

7

сделать это с помощью регрессии ломаной линии Кенкера, см. стр. 18 этой виньетки

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

В ответ на Уубер последний комментарий:

Эта оценка определяется следующим образом.

, x ( i )x ( i - 1 )xR ,x(i)x(i1)i

,ei:=yiβix(i)β0

, z - = max ( - z , 0 ) ,z+=max(z,0)z=max(z,0)

, λ 0τ(0,1)λ0

min.βRn|τ,λi=1nτei++i=1n(1τ)ei+λi=2n|βiβi1|

дает желаемый квантиль (т.е. в примере τ = 0,9 ). λ направляет количество точек останова: прибольших значениях λ эта оценка сокращается до точкиостанова(соответствует классической оценке линейной квантильной регрессии).ττ=0.9λλ

Квантильные сглаживающие сплайны Roger Koenker, Pin Ng, Stephen Portnoy Biometrika, Vol. 81, No. 4 (Dec., 1994), pp. 673-680

PS: есть открытый рабочий документ с таким же названием, но не одно и то же.


Это хорошая идея: спасибо за ссылку. Тем не менее, остатки этого конкретного соответствия выглядят довольно плохо, что заставляет меня задуматься, насколько хорошо он определяет потенциальные точки изменения.
whuber

whuber: я не знаю, насколько вы знакомы с теорией квантильной регрессии. Эти линии имеют главное преимущество перед сплайнами: они не предполагают какого-либо распределения ошибок (т.е. они не предполагают, что невязки являются гауссовыми).
user603

@kwak Это выглядит интересно. Не предполагая, что нормальное распределение ошибок будет полезно для одного из моих приложений.
Джером Энглим

Действительно, из этой оценки вы получаете фактические условные квантили: в двух словах, это сплайны / LOESS-регрессии, которые представляют собой боксы для пары (среднее, sd): гораздо более богатое представление о ваших данных. Они также сохраняют свою валидность в негауссовском контексте (например, асимметричные ошибки, ...).
user603

@kwak: остатки сильно коррелируют с координатой х. Например, существуют длинные серии отрицательных или небольших положительных остатков. Независимо от того, имеют ли они распределение Гаусса или нет, это не имеет значения (а также не имеет значения в любом исследовательском анализе): эта корреляция показывает, что соответствие является плохим.
whuber

6

Вот некоторые методы и связанные пакеты R для решения этой проблемы

Оценка вейвлет- порога в регрессии учитывает разрывы. Вы можете использовать пакет wavethresh в R.

Многие древовидные методы (недалеко от идеи вейвлета) полезны, когда у вас есть разрывы. Отсюда пакет Treethresh, пакет дерева!

В семействе методов " местного максимального правдоподобия " ... среди прочего: Работа Пожеля и Спокойны: адаптивное сглаживание весов (пакет aws) Работа Екатерины Лоадер: пакет locfit

Я предполагаю, что любое ядро, более гладкое с локально изменяющейся пропускной способностью, имеет смысл, но я не знаю R пакета для этого.

примечание: я на самом деле не понимаю, в чём разница между LOESS и регрессией ... Является ли идея, что в алгоритмах LOESS должны быть "на линии"?


1
Re LOESS: Возможно, моя терминология не совсем верна. Под LOESS я имею в виду модели, которые предсказывают Y из X, используя некоторую форму подгонки кривой. например, как видно на большинстве этих графиков: google.com/…
Jeromy Anglim

2

Должна быть возможность кодировать решение в R, используя нелинейную регрессионную функцию nls, b splines (например, функцию bs в пакете spline) и функцию ifelse.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.