Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей.
Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и данные о поведении покупок).
Мы можем собирать данные с тысячами объектов, но вряд ли даже невозможно, чтобы объекты могли полностью охватывать пространство с тысячами измерений. Вот почему методы уменьшения размеров так популярны.
Другими словами, весьма вероятно, что данные не содержат экспоненциального уровня информации, т. Е. Многие функции имеют высокую степень корреляции, и многие функции удовлетворяют правилам 80-20 (многие экземпляры имеют одинаковое значение).
В таком случае, я думаю, что такие методы, как KNN, все еще будут работать достаточно хорошо. (В большинстве книг «проклятие размерности» говорит, что измерение> 10 может быть проблематичным. В своих демонстрациях они используют равномерное распределение во всех измерениях, где энтропия действительно высока. Я сомневаюсь, что в реальном мире это когда-нибудь случится.)
Мой личный опыт работы с реальными данными заключается в том, что «проклятие размерности» не слишком сильно влияет на метод шаблона (такой как KNN), и в большинстве случаев измерения ~ 100 все равно будут работать.
Это правда для других людей? (Я работал с реальными данными в разных отраслях в течение 5 лет, никогда не наблюдал, что «все пары расстояний имеют одинаковые значения», как описано в книге.)