Я предвосхищу это тем, что не всегда понятно, что подразумевается под «непараметрическим», «полупараметрическим» и т. Д. В комментариях представляется вероятным, что у whuber имеется какое-то формальное определение (возможно, что-то вроде выбора модели из какой-то семьи где - бесконечномерное), но я собираюсь быть довольно неформальной. Некоторые могут возразить, что непараметрический метод - это метод, в котором эффективное количество используемых вами параметров увеличивается с данными. Я думаю, что есть видео на videolectures.net, где (я думаю) Питер Орбанц дает четыре или пять различных взглядов на то, как мы можем определить «непараметрический».Mθ{Mθ:θ∈Θ}Θ
Поскольку я думаю, что знаю, что вы имеете в виду, для простоты я предполагаю, что вы говорите об использовании гауссовских процессов для регрессии, типичным образом: у нас есть тренировочные данные и нас интересует моделирование условного среднего . Мы пишем
и, возможно, мы настолько смелы, чтобы предположить, что ϵ i iid и нормально распределены, ϵ i ∼ N ( 0 , σ 2 ) . X я буду одномерным, но все переносится в более высокие измерения.E ( Y | X = x ) : = f ( x ) Y i = f ( X i ) + ϵ i(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)
Yi=f(Xi)+ϵi
ϵiεя∼ N( 0 , σ2)Икся
Если наше может принимать значения в континууме, то f ( ⋅ ) можно рассматривать как параметр (неисчислимо) бесконечной размерности. Итак, в том смысле, что мы оцениваем параметр бесконечной размерности , наша задача непараметрическая. Это правда, что байесовский подход имеет некоторые параметры, плавающие здесь и там. Но на самом деле это называется непараметрическим, потому что мы оцениваем что-то бесконечного измерения. Используемые нами априоры ГП присваивают массу каждой окрестности каждой непрерывной функции, чтобы они могли произвольно хорошо оценить любую непрерывную функцию.Иксяе( ⋅ )
Вещи в ковариационной функции играют роль, аналогичную параметрам сглаживания в обычных оценках частоты - для того, чтобы задача не была абсолютно безнадежной, мы должны предположить, что существует некоторая структура, которую мы ожидаем увидеть в . Байесовские решения достигают этого, используя априорное пространство непрерывных функций в форме гауссовского процесса. С байесовской точки зрения мы кодируем представления о f , предполагая, что f взято из GP с такой-то и такой-ковариационной функцией. Предыдущее эффективно штрафует оценки f за то, что они слишком сложны.ееее
Редактировать для вычислительных вопросов
Большая часть (все?) Этого материала находится в книге Расмуссена и Уильямса «Процесс Гаусса».
Вычислительные проблемы сложны для врачей общей практики. Если мы пойдем дальше, нам понадобится память размера только для хранения ковариационной матрицы и (оказывается ) операций O ( N 3 ) для ее инвертирования. Есть несколько вещей, которые мы можем сделать, чтобы сделать вещи более осуществимыми. Один из вариантов - отметить, что нам действительно нужен парень v , решение ( K + σ 2 I ) v = Y, где K - ковариационная матрица. Метод сопряженных градиентов решает это точно в O ( N 3 )O ( N2)O ( N3)v( К+ σ2я) v = YКO ( N3)вычисления, но если мы удовлетворимся приближенным решением, мы можем завершить алгоритм сопряженного градиента после шагов и сделать это в O ( k N 2 ) вычислениях. Нам также не обязательно хранить всю матрицу K сразу.КO ( к N2)К
Таким образом, мы перешли от к O ( k N 2 ) , но это все равно масштабируется квадратично в N , поэтому мы не можем быть счастливы. Следующая лучшая вещь - это работать с подмножеством данных, скажем, с размером m, где инвертирование и сохранение матрицы m × m не так уж плохо. Конечно, мы не хотим просто выбросить оставшиеся данные. Подмножество подходов к регрессорам отмечает, что мы можем получить апостериорное значение нашего GP как регрессию наших данных Y на N зависимых от данных базисных функций, определенных нашей ковариационной функцией; поэтому мы бросаем все, кромеO ( N3)O ( к N2)Nмм × мYN от них, и мы до O ( м 2 N ) вычислений.мO ( м2N)
КК= Q QTQn × qQК+ σ2яQTQ + σ2я