Минимальный размер выборки для PCA или FA, когда основной целью является оценка только нескольких компонентов?


27

Если у меня есть набор данных с наблюдениями и переменными (измерениями), и, как правило, мало ( ), и может варьироваться от маленького ( ) до, возможно, гораздо большего ( ).p n n = 12 - 16 p p = 4 - 10 p = 30 - 50Npnn=1216pp=410p=3050

Я помню, как узнал, что должно быть намного больше, чем , чтобы выполнить анализ основных компонентов (PCA) или факторный анализ (FA), но, похоже, это не так в моих данных. Обратите внимание, что для моих целей я редко интересуюсь какими-либо основными компонентами после PC2.рnp

Вопросов:

  1. Каковы практические правила для минимального размера выборки, когда PCA можно использовать, а когда - нет?
  2. Можно ли использовать первые несколько ПК, даже если или ?n < pn=pn<п
  3. Есть ли ссылки на это?
  4. Имеет ли значение, если ваша основная цель - использовать ПК1 и, возможно, ПК2:

    • просто графически или
    • как синтетическая переменная затем используется в регрессии?

Я помню, как читал об этом виде руководящих принципов в отношении факторного анализа. Вас это тоже интересует или только в PCA? Кроме того, ответ может зависеть от типа данных, с которыми вы имеете дело, имеете ли вы конкретную область применения?
Гала-концерт

1
Спасибо Гаэль за комментарии и ссылки ниже. Теперь мне осталось узнать разницу между FA и PCA. :)
Патрик

3
Этот вопрос широко рассматривался на этом сайте, см., Например, stats.stackexchange.com/questions/1576/… и stats.stackexchange.com/questions/612/…
Gala

Ответы:


21

Вы можете измерить, достаточно ли велик размер вашей выборки. Одним из симптомов слишком малого размера выборки является нестабильность.

Начальная загрузка или перекрестная проверка вашего PCA: эти методы нарушают ваш набор данных, удаляя / обменивая небольшую часть вашей выборки, а затем создавая «суррогатные модели» для каждого из нарушенных наборов данных. Если суррогатные модели достаточно похожи (= стабильны), у вас все хорошо. Вы, вероятно, должны будете принять во внимание, что решение PCA не является уникальным: ПК могут перевернуться (умножьте как счет, так и соответствующий основной компонент на ). Вы также можете использовать ротацию Procrustes, чтобы получить модели компьютеров, которые максимально похожи.-1


Спасибо cbeleites. Как вы думаете, начальная загрузка будет чересчур информативной, например, с n до 16? Чтобы понять, я бы просто искал относительную стабильность, запустив много PCA, оставляя один сайт на каждом прогоне.
Патрик

В этом случае, безусловно, целесообразно рассмотреть все 16 моделей, которые были нарушены, путем удаления одного образца (или даже всех 120 моделей, в которых не было 2 образцов). Я думаю, что при малом я бы пошел на такой систематический cv-подобный подход. N
cbeleites поддерживает Монику

23

Что касается факторного анализа (а не анализа основных компонентов), то существует довольно много литературы, которая ставит под сомнение некоторые из старых эмпирических правил о количестве наблюдений. Традиционные рекомендации - по крайней мере, в рамках психометрии - состоят в том, чтобы иметь как минимум наблюдений на переменную (с x обычно от 5 до 20 ), поэтому в любом случае n p .ИксИкс520N»п

Довольно подробный обзор со многими ссылками можно найти по адресу http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis.

Тем не менее, основным выводом из недавних имитационных исследований, вероятно, будет то, что качество результатов настолько разнится (в зависимости от сообществ, от числа факторов или отношения факторов к переменным и т. Д.), Что с учетом Отношение переменных к наблюдениям не является хорошим способом выбора необходимого количества наблюдений. Если условия благоприятны, вы можете избежать гораздо меньшего количества наблюдений, чем предполагали старые рекомендации, но в некоторых случаях даже самые консервативные рекомендации слишком оптимистичны. Например, Preacher & MacCallum (2002) получили хорошие результаты с чрезвычайно малыми размерами выборки и но Mundfrom, Shaw & Ke (2005) обнаружили некоторые случаи, когда размер выборки n > 100 pп>NN>100пбыло необходимо. Они также обнаружили, что если число основных факторов останется неизменным, большее количество переменных (и не меньшее, как подразумевается в руководящих принципах, основанных на отношении наблюдений к переменным), может привести к лучшим результатам при небольших выборках наблюдений.

Соответствующие ссылки:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). Рекомендации по минимальному размеру выборки для проведения факторного анализа. Международный журнал испытаний, 5 (2), 159-168.
  • Проповедник, KJ & MacCallum, RC (2002). Исследовательский факторный анализ в исследовании генетики поведения: восстановление фактора при малых размерах выборки. Поведенческая генетика, 32 (2), 153-161.
  • де Винтер, JCF, Dodou, D. & Wieringa, PA (2009). Исследовательский факторный анализ с небольшими размерами выборки. Многомерное поведенческое исследование, 44 (2), 147-181.

5
(+1) Вот еще одна статья, использующая моделирование и реальные наборы данных, в которой предполагается, что эмпирическое правило N / p не очень хорошо работает на практике, и которая предоставляет размеры выборки, необходимые для получения стабильного и точного решения в EFA- -контроль для различных критериев качества - как функция количества факторов и количества предметов (и, необязательно, полуширина альфа 95% Cronbach CI, основанная на формуле Фельдта) в психиатрической шкале: Требования к размеру выборки для внутренняя валидация психиатрических шкал Int J Methods Psychiatr Res. 2011 дек; 20 (4): 235-49.
ЧЛ

1

пп-12Nп

Эквивалентность можно увидеть следующим образом: каждый шаг PCA является проблемой оптимизации. Мы пытаемся найти, в каком направлении выражать наибольшее расхождение. то есть:

мaИкс(aяT*Σ*aя)

σ

в соответствии с ограничениями:

aяT*aязнак равно1

aяT*aJзнак равно0
J<я

Σσ

Взятие n = p более или менее эквивалентно угадыванию значения только с двумя данными ... это ненадежно.

2Nп


КК(п-1)+(п-2)++(п-К)пКp(п-1)/2
whuber

Дело в том, что вы вычисляете (pk) коэффициенты собственных векторов из p (p-1) / 2 коэффициентов матрицы. Для случайной матрицы, я не думаю, что есть способ «пропустить» некоторые коэффициенты, вычисляющие собственные векторы / собственные значения.
lcrmorin

Конечно, есть: обычные алгоритмы находят собственные значения и собственные векторы по одному, начиная с самого большого собственного значения и далее. Кроме того, это не вычислительная проблема, а проблема подсчета числа оценочных значений - разве я неправильно понял ваш ответ?
whuber

1

Я надеюсь, что это может быть полезно:

для FA и PCA

«Методы, описанные в этой главе, требуют больших выборок для получения стабильных решений. То, что составляет адекватный размер выборки, несколько сложно. До недавнего времени аналитики использовали эмпирические правила, такие как «факторный анализ требует в 5–10 раз больше субъектов, чем переменных». Недавние исследования показывают, что требуемый размер выборки зависит от количества факторов, количества переменных, связанных с каждым фактором, и от того, хорошо, набор факторов объясняет дисперсию переменных (Bandalos and Boehm-Kaufman, 2009). Я выйду на конечности и скажу, что если у вас есть несколько сотен наблюдений, вы, вероятно, в безопасности ».

Ссылка:

Бандалос, Д. Л. и М. Р. Бём-Кауфман. 2009. «Четыре распространенных заблуждения в исследовательском факторном анализе». В «Статистических и методологических мифах и городских легендах» под редакцией К. Э. Ланса и Р. Дж. Ванденберга, 61–87. Нью-Йорк: Routledge.

из «R in Action» Роберта И. Кабакова, очень информативная книга с полезными советами, охватывающая практически все статистические тесты.


2
Кажется, вы просто подключаете книгу и перефразируете некоторые замечания, сделанные ранее на основе вторичного или третичного источника. Это не кажется очень полезным. Не могли бы вы предоставить хотя бы полную справочную информацию для Бандалос и Бём-Кауфман, 2009?
Гала
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.