Зачем преобразовывать данные в журнал перед выполнением анализа главных компонентов?


16

Я следую учебному пособию здесь: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/, чтобы лучше понять PCA.

Учебное пособие использует набор данных Iris и применяет преобразование журнала до PCA:

Обратите внимание, что в следующем коде мы применяем логарифмическое преобразование к непрерывным переменным, как предложено в [1], и устанавливаем centerи scaleравняемся TRUEпри вызове prcompдля стандартизации переменных до применения PCA.

Может ли кто-нибудь объяснить мне на простом английском языке, почему вы сначала используете функцию log в первых четырех столбцах набора данных Iris. Я понимаю, что это как-то связано с тем, чтобы сделать данные относительными, но я не совсем понимаю, какова функция журнала, центра и масштаба.

Ссылка [1] выше относится к Venables и Ripley, Современная прикладная статистика с S-PLUS , раздел 11.1, в котором кратко сказано:

Данные являются физическими измерениями, поэтому разумной первоначальной стратегией является работа в логарифмическом масштабе. Это было сделано во всем.


Ответы:


19

Набор данных радужной оболочки - хороший пример изучения PCA. Тем не менее, первые четыре столбца, описывающие длину и ширину чашелистика и лепестков, не являются примером сильно искаженных данных. Поэтому преобразование данных в журнал не сильно меняет результаты, поскольку результирующая ротация основных компонентов практически не изменяется при преобразовании журнала.

В других ситуациях лог-трансформация является хорошим выбором.

Мы выполняем PCA, чтобы получить представление об общей структуре набора данных. Мы центрируем, масштабируем и иногда лог-преобразовываем, чтобы отфильтровать некоторые тривиальные эффекты, которые могут доминировать в нашем PCA. Алгоритм PCA, в свою очередь, будет находить вращение каждого ПК для минимизации квадратов невязок, а именно суммы квадратов перпендикулярных расстояний от любого образца до ПК. Большие значения, как правило, имеют высокий левередж.

Представьте, что вы вводите два новых образца в данные радужной оболочки. Цветок с 430 см длиной лепестка и один с длиной лепестка 0,0043 см. Оба цветка очень ненормальные, в 100 раз больше и в 1000 раз меньше, чем в среднем. Рычаг первого цветка огромен, так что первые компьютеры в основном будут описывать различия между большим цветком и любым другим цветком. Кластеризация видов невозможна из-за этого выброса. Если данные лог-преобразованы, абсолютное значение теперь описывает относительное отклонение. Теперь маленький цветок - самый ненормальный. Тем не менее, можно одновременно содержать все образцы в одном изображении и обеспечить справедливую кластеризацию видов. Проверьте этот пример:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

введите описание изображения здесь

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

введите описание изображения здесь


2
Хорошая демонстрация и сюжеты.
Shadowtalker

3

Ну, другой ответ дает пример, когда лог-преобразование используется для уменьшения влияния экстремальных значений или выбросов.
Другой общий аргумент возникает, когда вы пытаетесь анализировать данные, которые мультипликативно составлены, а не аддитивно, - модели PCA и FA по их математике и таким аддитивным композициям. Multiplicativeкомпозиции встречаются в самом простом случае в физических данных, таких как поверхность и объем тел (функционально), зависящих (например) от трех параметров длина, ширина, глубина. Можно воспроизвести композиции исторического примера раннего PCA, я думаю, что это называется «проблема с шаром (или« кубиками »» Терстоуна »или тому подобное). Однажды я поиграл с данными этого примера и обнаружил, что преобразованные логарифмические данные дают гораздо более четкую и ясную модель для состава измеренных данных объема и поверхности с тремя одномерными измерениями.

Помимо таких простых примеров, если мы рассмотрим в данных социальных взаимодействий взаимодействие , то мы обычно думаем о них, а также мультипликативно составленные измерения более элементарных элементов. Так что, если мы рассмотрим конкретно взаимодействия, лог-преобразование может стать особым полезным инструментом для получения математической модели декомпозиции.


Не могли бы вы перечислить некоторые ссылки, которые могут лучше объяснить «мультипликативные» композиции? Большое спасибо!
Amatya

1
@Amatya - я не нашел «thurstone-box-problem», но был (на немецком языке) сайт для обсуждения кубов, содержащий ширину, длину, высоту в качестве базовых элементов и поверхностей и объем в качестве мультипликативно комбинированных дополнительных элементов. Возможно, включенных формул для определений достаточно. См. Sgipt.org/wisms/fa/Quader/q00.htm
Готфрид Хелмс

1
Ах, и я забыл - моя старая дискуссия об этом go.helms-net.de/stat/fa/SGIPT_Quader.htm
Готфрид Хелмс

@GottfriedHelms Я до сих пор не совсем понимаю, почему, если мы стандартизируем переменные, нам также нужно их лог-преобразовать. Я понимаю общий принцип уменьшения нежелательного влияния экстремальных выбросов, но если мы уже стандартизируем (центрируем, масштабируем) их, кажется, что лог-преобразование в дополнение к этому фактически искажает данные.
Ю Чен

@YuChen - любое лог-преобразование преобразует мультипликативную композицию в аддитивную композицию, а аддитивная композиция является основным допущением (помимо линейности и т. Д.) Всех типов компонентов и факторного анализа. Таким образом, если ваши данные имеют мультипликативную композицию, лог-преобразование должно быть вариантом, который стоит рассмотреть.
Готфрид Хелмс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.