Могу ли я сделать PCA по повторным мерам по сокращению данных?


13

У меня есть 3 испытания каждого на 87 животных в каждом из 2 контекстов (некоторые отсутствующие данные; отсутствие отсутствующих данных = 64 животных). В контексте, у меня есть много конкретных мер в (время , чтобы войти, число раз возвращаюсь в убежище, и т.д.), поэтому я хочу , чтобы разработать 2 до 3 композитной оценки поведения , которые описывают поведение в этом контексте (назовут их C1, C2, C3). Я хочу, чтобы это C1означало одно и то же для всех 3 испытаний и 87 животных, чтобы я мог провести регрессию, чтобы изучить влияние возраста, пола, родословной и отдельных животных на поведение. Затем я хочу изучить, как C1соотносятся оценки поведения в другом контексте, в пределах определенного возраста. (В возрасте 1 года активность в контексте 1 сильно предсказывает активность в контексте 2?)

Если бы это не были повторные измерения, PCA работал бы хорошо - выполнял PCA по нескольким показателям контекста, затем использовал PC1, PC2 и т. Д., Чтобы исследовать отношения (корреляции Спирмена) между PC1 в одном контексте и PC1 (или 2 или 3) в другом контексте. Проблема заключается в повторных мерах, которые впадают в псевдорепликацию. У меня был рецензент, который категорически сказал «нет», но я не могу найти четких ссылок на то, является ли это проблематичным при сокращении данных.

Мои рассуждения сводятся к следующему: повторные измерения не являются проблемой, потому что то, что я делаю в PCA, является чисто описательным по отношению к первоначальным измерениям. Если бы я объявил указом, что я использовал время, чтобы выйти на арену в качестве меры «смелости» в контексте 1, у меня был бы показатель смелости контекста 1, который был бы сопоставим для всех людей в любом возрасте, и никто не бросил бы глаз. Если я заявляю приказном , что я буду использовать времени на ввод времени до дальнего конца, то же самое. Поэтому, если я использую PCA исключительно для редуцирующих целей, почему это не может быть PC1 (это может быть введите finish0,5+ 0,50,28+ 0,63+ 0.02 общее время ...), которое, по крайней мере, основывается на моих многочисленных показателях, а не на том, что я предполагаю, что время для входа является в целом информативным и представительным признаком?

(Обратите внимание, что меня не интересует базовая структура мер ... мои вопросы касаются того, как мы интерпретируем поведение, зависящее от контекста. "Если бы я использовал контекст 1 и пришел к выводу, что Гарри активен по сравнению с другими животными, я вижу Гарри активен в контексте 2? Если он меняет то, что мы интерпретируем как активность в контексте 1, когда он становится старше, он также меняет свою деятельность в контексте 2?)

Я смотрел на PARAFAC, и я смотрел на SEM, и я не уверен, что какой-либо из этих подходов лучше или больше подходит для моего размера выборки. Кто-нибудь может взвесить? Благодарю.


Правильно ли я вас понял, что у вас есть 2 внутрисубъектных фактора: 1) контекст, который отличается некоторыми экспериментальными условиями (например, эксперимент в помещении или эксперимент на открытом воздухе), 2) испытание, которое является просто повторением, попыткой эксперимента. И вы хотели бы сделать PCA в каждом из условий, но это останавливает вас, что вы провели не одно, а несколько испытаний эксперимента.
ttnphns

Два контекста являются двумя отдельными тестами, и меры, принятые в каждом, различны. Тем не менее, да, вы понимаете мою ситуацию.
Leann

Как насчет того, чтобы обойти проблему и запустить PCA во всех трех испытаниях?
Гала-концерт

Ответы:


7

Вы можете посмотреть на многофакторный анализ . Это может быть реализовано в R с помощью FactoMineR.

ОБНОВИТЬ:

Чтобы уточнить, Линн предлагал - хотя и давно - провести PCA на наборе данных с повторными измерениями. Если я правильно понимаю структуру ее набора данных, для данного «контекста» у нее была xматрица «особая мера» животного (время для входа, количество раз возвращающихся в приют и т. Д.). Каждое из 64 животных (без пропущенных наблюдений) наблюдалось три раза. Скажем , у нее была 10 «мер конкретных», так что она будет тогда иметь три 64 × 10 матриц на поведении животных (мы можем назвать матрицы X1, X2, X3). Чтобы запустить PCA на трех матрицах одновременно, она должна была бы связать строки тремя матрицами (например,PCA(rbind(X1,X2,X3))). Но это игнорирует тот факт, что первое и 64-е наблюдения относятся к одному и тому же животному. Чтобы обойти эту проблему, она может «связать столбцы» с тремя матрицами и провести их через многофакторный анализ. MFA - это полезный способ анализа нескольких наборов переменных, измеряемых одними и теми же людьми или объектами в разные моменты времени. Она сможет извлечь основные компоненты из MFA так же, как в PCA, но будет иметь одну координату для каждого животного. Объекты животных теперь будут помещены в многомерное пространство компромисса, ограниченное ее тремя наблюдениями.

Она сможет выполнить анализ с использованием пакета FactoMineR в R. Пример кода будет выглядеть примерно так:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Кроме того, вместо того, чтобы извлекать первые три компонента из МФА и подвергать их множественной регрессии, она могла бы подумать о том, чтобы проецировать свои объясняющие переменные непосредственно на МФА как «дополнительные таблицы» (см. ?FactoMineR). Другой подход заключается в том, чтобы вычислить евклидову матрицу расстояний координат объекта из MFA (например dist1=vegdist(mfa1$ind$coord, "euc")) и поставить ее через RDA dist1в зависимости от переменных, специфичных для животного (например, rda(dist1~age+sex+pedigree)используя пакет веганский).


2
Привет, Кайл, спасибо за твой ответ. Тем не менее, ответы, которые состоят по существу из чуть больше, чем ссылка, или которые имеют длину только предложения, обычно не считаются ответами, а являются комментариями. В частности, ответы, содержащие только ссылки, страдают от гниения ссылок, поэтому ответы должны иметь достаточно информации, чтобы быть полезной, даже если ссылка больше не работает. Не могли бы вы еще немного расширить свой ответ, возможно, кратко изложив, что это такое / как оно относится к факторному анализу в целом?
Glen_b

(+1) Я понимаю, что это старый пост, но этот ответ очень полезен! Возможно, ссылка должна быть добавлена ​​полностью в случае, если ссылка умирает: Абди Эрве, Уильямс Линн Дж., Валентин Домининик. Многофакторный анализ: анализ основных компонентов для многоблочных и многоблочных наборов данных. WIREs Comp Stat. 2013, 5: 149-179. doi: 10.1002 / wics.1246
Франс Роденбург

4

Обычно PCA используется при анализе повторяющихся измерений (например, он используется для анализа данных о продажах, ценах на акции и обменных курсах). Логика заключается в том, как вы формулируете (т. Е. Обоснование заключается в том, что PCA - это инструмент сокращения данных, а не логический инструмент). ).

Одна публикация довольно хорошего статистика: Bradlow, ET (2002). « Изучение наборов данных повторных измерений для ключевых функций с использованием анализа основных компонентов ». Журнал исследований по маркетингу 19: 167-179.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.