Вопрос о дихотомических или бинарных переменных в PCA или Факторном анализе является вечным. Есть полярные мнения от «это незаконно» до «все в порядке», что-то вроде «вы можете сделать это, но вы получите слишком много факторов». Мое собственное текущее мнение таково. Во-первых, я считаю, что наблюдаемая бинарная переменная является дискретной и что ее нельзя рассматривать как непрерывную. Может ли эта дискретная переменная вызвать фактор или главный компонент?
Факторный анализ (ФА). Фактор по определению - это непрерывный латент, который загружает наблюдаемые переменные ( 1 , 2 ). Следовательно, последний не может быть, но непрерывным (или интервалом, более условно говоря), когда достаточно загружен фактором. Кроме того, FA, в силу своей линейной регрессионной природы, предполагает, что остальная - не загруженная - часть, называемая уникальностью, также является непрерывной, и поэтому получается, что наблюдаемые переменные должны быть непрерывными, даже если загружены незначительно. Таким образом, бинарные переменные
не могут легализоваться в FA, Тем не менее, есть как минимум два пути обхода: (A) Предположим, что дихотомии, как шероховатые, продолжают лежать в основе переменных и делают FA с тетрахорическими, а не с Пирсоновскими корреляциями; (B) Предположим, что коэффициент загружает дихотомическую переменную не линейно, а с точки зрения логистики, и вместо анализа линейного FA выполняйте анализ скрытых признаков (так называемая теория отклика элемента). Подробнее .
Анализ основных компонентов (PCA). Имея много общего с FA, PCA - это не моделирование, а метод суммирования. Компоненты не загружают переменные в том же концептуальном смысле, что и факторы, загружающие переменные. В PCA компоненты загружают переменные, а
переменные загружают компоненты. Эта симметрия объясняется тем, что PCA как таковая представляет собой просто вращение осей переменных в пространстве. Двоичные переменные не обеспечивают истинную непрерывность для компонента сами по себе - поскольку они не являются непрерывными, но псевдопрерывность может быть обеспечена углом поворота PCA, который может быть любым. Таким образом, в PCA, и в отличие от FA, вы можете получить, казалось бы, непрерывные размеры (повернутые оси) с чисто двоичными переменными (не повернутые оси) - угол является причиной непрерывности1
(0,0)
2
Некоторые связанные вопросы о FA или PCA двоичных данных: 1 , 2 , 3 , 4 , 5 , 6 . Ответы там могут выражать мнения, отличные от моих.
1сущности уровня - для переменных как точки или категории как точки - их координаты в пространстве главных осей действительно являются масштабными значениями. Но не для точек данных (случаев данных) двоичных данных, их «оценки» являются псевдопрерывными значениями: не внутренняя мера, а лишь некоторые координаты наложения.
21
Пример двоичных данных (простой случай двух переменных):
Диаграммы рассеяния, приведенные ниже, отображают точки данных с небольшим разбросом (для рендеринга частоты) и показывают оси главных компонентов в виде диагональных линий, несущих на себе оценки компонентов [эти оценки, согласно моему утверждению, являются псевдопрерывными значениями]. Левый график на каждом изображении демонстрирует PCA, основанный на «сырых» отклонениях от источника, в то время как правый график демонстрирует PCA, основанный на масштабированных (диагональ = единица) отклонениях от него.
1) Традиционный PCA помещает (0,0)
происхождение в среднее значение данных (центроид). Для двоичных данных среднее значение не является возможным значением данных. Это, однако, физический центр тяжести. PCA максимизирует изменчивость об этом.
(Не забывайте также, что в двоичной переменной среднее значение и дисперсия строго связаны друг с другом, они, так сказать, «одно». Стандартизация / масштабирование бинарных переменных, то есть выполнение PCA на основе корреляций, а не ковариаций, в текущий случай будет означать, что вы мешаете более сбалансированным переменным - с большей дисперсией - влиять на PCA сильнее, чем более искаженные переменные.)
2) Вы можете сделать PCA в нецентрированных данных, т.е. позволить источнику (0,0)
перейти в местоположение (0,0)
. Это PCA на матрице MSCP ( X'X/n
) или на косинусной матрице подобия. PCA максимизирует выпуклость из состояния без атрибутов.
3) Вы можете позволить источнику (0,0)
лежать в точке данных наименьшей суммы расстояний Манхэттена от него до всех других точек данных - L1 medoid. Medoid, как правило, понимается как наиболее «представительная» или «типичная» точка данных. Следовательно, PCA будет максимизировать нетипичность (в дополнение к частоте). По нашим данным, медоид L1 выпал на (1,0)
исходные координаты.
4) Или поместите начало координат (0,0)
в координаты данных, где частота самая высокая - многомерный режим. Это (1,1)
ячейка данных в нашем примере. PCA будет максимизировать (руководствоваться) младшие режимы.
5) В тексте ответа было упомянуто, что тетрахорические корреляции - это разумный вопрос для проведения факторного анализа двоичных переменных. То же самое можно сказать и о PCA: вы можете делать PCA, основываясь на тетрахорических корреляциях. Однако это означает, что вы предполагаете, что в двоичной переменной лежит основная непрерывная переменная.