В Элементах Статистического Изучения введена проблема, чтобы выделить проблемы с k-nn в многомерных пространствах. Есть точек данных, которые равномерно распределены в мерном единичном шаре.
Среднее расстояние от начала координат до ближайшей точки данных определяется выражением:
Когда , формула разбивается на половину радиуса шара, и я могу видеть, как самая близкая точка приближается к границе как , таким образом, интуиция позади knn разрушается в больших измерениях. Но я не могу понять, почему формула зависит от N. Может кто-нибудь уточнить?
Кроме того, в книге также рассматривается эта проблема: «... прогнозирование намного сложнее вблизи границ обучающей выборки. Необходимо экстраполировать из соседних точек выборки, а не интерполировать между ними». Это кажется глубоким утверждением, но я не могу понять, что это значит. Может ли кто-нибудь перефразировать?