Я благодарю Арье за то, что он привлек этот вопрос к моему вниманию.
Как уже упоминалось, ответом на (1) является « Да» , и простой метод минимизации эмпирического риска в позволяет достичь сложности образца ( см. Vapnik and Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler and Warmuth, 1989).СO((d/ε)log(1/ε))
Что касается (2), на самом деле известно, что существуют пробелы
где ни один правильный алгоритм обучения не достигает лучшего, чем образец сложности , и следовательно, правильное обучение не может достичь оптимальной сложности выборки . Насколько мне известно, этот факт фактически никогда не публиковался, но коренится в связанном аргументе Даниели и Шалева-Шварца (COLT 2014) (первоначально сформулирован для другого, но связанного вопроса в мультиклассовом обучении).C Ω ( ( d / ε ) log ( 1 / ε ) ) O ( d / ε )Ω((d/ε)log(1/ε))O(d/ε)
Рассмотрим простой случай и обозначим пространство как , а - синглетоны : то есть, каждый классификатор в классифицирует ровно одна точка из , как , а остальные как . Для нижней границы возьмем целевую функцию как случайный синглтон , где , а - предельное распределение , является одинаковым наd=1X{1,2,...,1/ε}Cfz(x):=I[x=z],z∈XCX10fx∗x∗∼Uniform(X)PXX∖{x∗}, Теперь ученик никогда не видит примеров с меткой , но он должен выбрать точку чтобы угадать метку (важно, чтобы функция `` все ноль ') не была в , поэтому любой ученик должен угадать некоторую ) и до тех пор, пока он не увидит каждую точку в него будет как минимум вероятности неверного угадывания (т. е. задняя вероятность того, что имеет составляет не менее ). Аргумент сборщика купонов подразумевает, что это потребует1z1CzX∖{x∗}1/2fzz≠x∗1/2Ω((1/ε)log(1/ε))Образцы чтобы увидеть каждую точку вX∖{x∗} . Таким образом, это доказывает нижнюю оценкуΩ((1/ε)log(1/ε)) для всех учеников.
Для общего d>1 , мы возьмем X как {1,2,...,d/(4ε)} , возьмите C качестве классификатора IA для множеств A⊂X размера d точно , выберите целевую функцию случайным образом из C и снова возьмите P качестве равномерного только для тех точек, которые целевая функция классифицирует 0 ( поэтому ученик никогда не видит точку с надписью 1). Тогда обобщение аргумента купон-коллектор подразумевает, что нам нужно Ω((d/ε)log(1/ε)) выборок, чтобы увидеть хотя бы |X|−2d различных точек из X , и не видя это много различных точек любой собственный ученик имеет по крайней мере 1/3 шанс получить больше , чем d/4 его догадка A из d точек неправильно в его выбрали гипотезы hAЭто означает, что частота ошибок превышает ε . Таким образом, в этом случае не существует надлежащего учащегося со сложностью выборки, меньшей Ω((d/ε)log(1/ε)) , что означает, что ни один учащийся не достигает оптимальной сложности выборки O(d/ε) .
Обратите внимание , что результат вполне специфичен для пространства C построено. Существуют пространства C которых учащиеся могут достичь оптимальной сложности выборки O(d/ε) и даже точного полного выражения O((d/ε)+(1/ε)log(1/δ)) из ( Ханнеке, 2016a). Некоторые верхние и нижние оценки для общих учащихся ERM были разработаны в (Hanneke, 2016b), количественно определенными в терминах свойств пространства C, а также обсуждение некоторых более специализированных случаев, когда конкретные ученики могут иногда достигать оптимальной сложности выборки.
Ссылки:
Вапник и Червоненкис (1974). Теория распознавания образов. Наука, Москва, 1974.
Blumer, Ehrenfeucht, Haussler и Warmuth (1989). Обучаемость и измерение Вапника-Червоненки. Журнал Ассоциации вычислительной техники, 36 (4): 929–965.
Даниели и Шалев-Шварц (2014). Оптимальные ученики для многоклассовых задач. В материалах 27-й конференции по теории обучения.
Ханнеке (2016a). Оптимальная выборочная сложность обучения PAC. Журнал исследований машинного обучения, Vol. 17 (38), стр. 1-15.
Ханнеке (2016b). Уточненные границы ошибок для нескольких алгоритмов обучения. Журнал исследований машинного обучения, Vol. 17 (135), стр. 1-55.