Я использовал итеративно переоцененные наименьшие квадраты (IRLS), чтобы минимизировать функции следующей формы,
где - количество экземпляров , - надежная оценка, которую я хочу, а - подходящая робастная штрафная функция. Допустим, он выпуклый (хотя не обязательно строго) и на данный момент дифференцируемый. Хорошим примером такого является функция потерь Хьюбера .
То, что я делал, это дифференцирование отношению к (и манипулирование) для получения,
и итеративно решения, установив его равным 0 и фиксации веса при итерации к (обратите внимание, что воспринимаемая особенность придействительно является устраняемой сингулярностью во всехо которых я мог бы беспокоиться). Тогда я получаю,
и я решаю получить, .
Я повторяю этот алгоритм с фиксированной точкой до "сходимости". Отмечу, что если вы доберетесь до фиксированной точки, вы оптимальны, поскольку ваша производная равна 0 и это выпуклая функция.
У меня есть два вопроса об этой процедуре:
- Это стандартный алгоритм IRLS? После прочтения нескольких статей по этой теме (и они были очень разбросаны и расплывчаты в отношении того, что такое IRLS), это наиболее последовательное определение алгоритма, которое я могу найти. Я могу публиковать газеты, если люди хотят, но я на самом деле не хотел никого пристрастить. Конечно, вы можете обобщить эту базовую технику на многие другие типы проблем, связанных с вектором и аргументами, отличными от | x i - m ( k ) | Предоставление аргумента является нормой аффинной функции ваших параметров. Любая помощь или понимание было бы здорово в этом.
- Конвергенция, кажется, работает на практике, но у меня есть несколько опасений по этому поводу. Я еще не видел доказательства этого. После нескольких простых симуляций Matlab я вижу, что одна итерация этого не является отображением сжатия (я сгенерировал два случайных экземпляра и вычислил | m 1 ( k + 1 ) - m 2 ( k + 1 ) |и увидел, что это иногда больше, чем 1). Кроме того, отображение, определенное несколькими последовательными итерациями, не является строго сжатым отображением, но вероятность того, что константа Липшица будет больше 1, становится очень низкой. Так есть ли понятиевероятностного картографирования? Какой механизм я бы использовал, чтобы доказать, что это сходится? Это даже сходится?
Любое руководство вообще полезно.
Редактировать: Мне нравится статья о IRLS для разреженного восстановления / обнаружения сжатия, написанная Daubechies et al. 2008 «Итеративно повторно взвешенный метод минимизации наименьших квадратов для разреженного восстановления» на arXiv. Но, похоже, основное внимание уделяется весам невыпуклых задач. Мой случай значительно проще.