Я не понимаю, почему сокращение размеров важно. Какая польза от сбора некоторых данных и уменьшения их размера?
Я не понимаю, почему сокращение размеров важно. Какая польза от сбора некоторых данных и уменьшения их размера?
Ответы:
Разложение по сингулярным значениям (SVD) - это не то же самое, что уменьшение размерности данных. Это метод разложения матрицы на другие матрицы, обладающий множеством замечательных свойств, которые я не буду здесь рассматривать. Подробнее о SVD см. На странице Википедии .
Уменьшение размерности ваших данных иногда очень полезно. Возможно, у вас гораздо больше переменных, чем наблюдений; это не редкость в геномной работе. Может случиться так, что у нас есть несколько переменных, которые очень сильно коррелированы, например, когда на них сильно влияет небольшое количество основных факторов, и мы хотим восстановить некоторое приближение к основным факторам. Методы уменьшения размерности, такие как анализ главных компонентов, многомерное масштабирование и канонический анализ вариаций, дают нам понимание взаимосвязей между наблюдениями и / или переменными, которые мы не можем получить каким-либо другим способом.
Конкретный пример: несколько лет назад я анализировал опрос удовлетворенности сотрудников, в котором было более 100 вопросов. Ну, ни один менеджер никогда не сможет взглянуть на более чем 100 вопросов на сумму ответов, даже обобщенных, и сделать больше, чем просто догадаться, что все это значит, потому что кто может сказать, как связаны ответы и что движет ими, на самом деле ? Я выполнил факторный анализ данных, для которого у меня было более 10 000 наблюдений, и предложил пять очень четких и легко интерпретируемых факторов, которые можно использовать для разработки специфических для менеджера баллов (по одному на каждый фактор), которые суммируют всю совокупность более 100 вопросов. Гораздо лучшее решение, чем дамп электронных таблиц Excel, который раньше использовался при составлении отчетов о результатах!
Что касается вашего второго пункта вопроса, преимущества уменьшения размерности для набора данных могут быть:
Помимо этого, помимо PCA, SVD имеет множество приложений в области обработки сигналов, NLP и многих других
Посмотрите на этот мой ответ . Разложение по сингулярным значениям является ключевым компонентом анализа основных компонентов , который является очень полезным и очень мощным методом анализа данных.
Он часто используется в алгоритмах распознавания лиц, и я часто использую его в своей повседневной работе в качестве аналитика хедж-фонда.