Вопросы с тегом «high-dimensional»

Относится к большому количеству функций или размеров (переменных) данных. (Для большого количества точек данных используйте тег [big-data]; если проблема заключается в большем количестве переменных, чем данных, используйте тег [underdetermined].)

8
Почему евклидово расстояние не является хорошим показателем в больших измерениях?
Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100 объектами. До скольких функций «безопасно» использовать этот показатель?

11
Объясните ребенку «Проклятие размерности»
Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно. Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда? РЕДАКТИРОВАТЬ: Теперь предположим, что ребенок …

7
Лучший алгоритм PCA для огромного количества функций (> 10K)?
Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и реализовал этот , который, …

3
Как оценить параметр усадки в лассо или гребень регрессии с> 50K переменных?
Я хочу использовать регрессию Лассо или Риджа для модели с более чем 50 000 переменных. Я хочу сделать это, используя программный пакет в R. Как я могу оценить параметр усадки ( )?λλ\lambda Редактирование: Вот точка, до которой я добрался: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, …

3
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?
Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась нейронная сеть, которую я тренирую, и я был очень доволен результатами. …

1
Почему LASSO не находит мою идеальную пару предикторов в высокой размерности?
Я провожу небольшой эксперимент с регрессией LASSO в R, чтобы проверить, сможет ли она найти идеальную пару предикторов. Пара определяется следующим образом: f1 + f2 = исход Результатом здесь является предопределенный вектор, называемый «возраст». F1 и f2 создаются путем взятия половины вектора возраста и установки остальных значений в 0, например: …

1
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?
Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python sklearn.manifold.TSNE с евклидовой метрикой расстояния по умолчанию.

4
Существует ли «проклятие размерности» в реальных данных?
Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или видео, я думаю о таких данных, как демографические данные клиентов и …

1
Высокомерная регрессия: почему
Я пытаюсь прочитать об исследованиях в области регрессии больших размеров; когда больше , то есть . Похоже, термин часто встречается в терминах скорости сходимости для оценок регрессии.pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n Например, здесь уравнение (17) говорит, что для подгонки лассо удовлетворяет β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} …

1
Влияет ли проклятие размерности на некоторые модели больше, чем на другие?
Места, которые я читал о проклятии размерности, объясняют его в первую очередь в связи с kNN и линейными моделями в целом. Я регулярно вижу топ-рейтингов в Kaggle, использующих тысячи функций в наборе данных, который вряд ли имеет 100 тыс. Точек данных. Они в основном используют Boosted деревья и NN, среди …

3
СПС по многомерным текстовым данным до классификации случайных лесов?
Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров уже?


2
Является ли множественная линейная регрессия в 3 измерениях плоскостью наилучшего соответствия или линией наилучшего соответствия?
Наш проф не входит в математику или даже геометрическое представление множественной линейной регрессии, и это меня немного смущает. С одной стороны, это все еще называется множественной линейной регрессией, даже в более высоких измерениях. С другой стороны, если мы, например , Y = B 0 + B 1 X 1 + …

4
Проклятие размерности: классификатор кНН
Я читаю книгу Кевина Мерфи: Машинное обучение - вероятностная перспектива. В первой главе автор объясняет проклятие размерности, и есть часть, которую я не понимаю. В качестве примера автор заявляет: Рассмотрим входы, равномерно распределенные по D-мерному единичному кубу. Предположим, что мы оцениваем плотность меток классов, выращивая гиперкуб вокруг x, пока он …

1
Является ли теорема об относительном контрасте от Beyer et al. статья: «Об удивительном поведении дистанционных метрик в многомерном пространстве» вводит в заблуждение?
Это часто упоминается, когда упоминается проклятие размерности и идет (формула справа называется относительным контрастом) Итd→ ∞вар ( | | Xd| |КЕ[ | | Иксd| |К]) =0,то: DМаксимумКd- DминКdDминКd→ 0Итd→∞вар(||Иксd||КЕ[||Иксd||К])знак равно0,тогда:DМаксимумdК-DминdКDминdК→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Результат теоремы показывает, что разница между максимальным …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.