Дискретные данные и альтернативы PCA


9

У меня есть набор данных с дискретными (порядковыми, меристическими и номинальными) переменными, описывающими морфологические признаки крыла нескольких близкородственных видов насекомых. То, что я хочу сделать, - это провести какой-то анализ, который бы дал мне визуальное представление о сходстве разных видов на основе морфологических характеристик. Первой вещью, которая пришла мне в голову, был PCA (это тип визуализации, который я собираюсь создать), но после изучения этого (особенно других вопросов, таких как: Можно ли применять анализ основных компонентов к наборам данных, содержащим смесь непрерывных а категориальные переменные?), кажется, что PCA может быть неподходящим для дискретных данных (PCA используется в этих типах исследований в литературе, но всегда с непрерывными данными). Игнорируя статистический фон того, почему эти данные неуместны, PCA дает мне относительно прекрасные результаты в отношении моего биологического вопроса (представляющие интерес гибридные группы попадают прямо в середину их отцовских групп).

Я также пробовал многократный анализ корреспонденции, чтобы успокоить статистику (по крайней мере, насколько мне известно), но я не могу получить график, аналогичный тому, который я получил бы с PCA, где мои наблюдения (биологические индивидуумы) разделены, скажем, цветом, чтобы показать разные группировки (разные виды, биологически). Похоже, что этот анализ направлен на описание того, как переменные (здесь мои морфологические характеристики) связаны друг с другом, а не с отдельными наблюдениями. И когда я строю наблюдения, раскрашенные по группам, я получаю только одно значение (возможно, среднее), описывающее весь набор людей. Я провел анализ в R, так что, возможно, я просто недостаточно разбираюсь в R, чтобы реализовать свое представление о сюжете.

Правильно ли я пытаюсь провести такой анализ с моими данными или я не в порядке? Если вы не могли бы сказать, мой статистический опыт ограничен, поэтому уравнения, возникающие под этими анализами, находятся у меня над головой. Я пытаюсь провести этот анализ полностью описательно (мне не нужно больше обрабатывать номера вниз по течению), и я прочитал, что если это так, PCA будет достаточно, но хочу убедиться, что я не нарушая слишком много статистических предположений.


1
Вы должны быть в состоянии получить вид сюжета, который вы хотите с множественным анализом корреспонденции. Если вы можете дать нам ссылку на ваши данные, мы могли бы посмотреть. Многомерное масштабирование - это еще одна возможность, но MCA можно рассматривать как разновидность многомерного масштабирования
kjetil b halvorsen,

Латентная классовая кластеризация является еще одним методологическим вариантом. По сути, LCA создает «модель» неоднородности остатка, из которой используется для кластеризации. Исторически в литературе было 2 широких исследовательских потока, оба социологических. Первоначальный LCA восходит к Лазарсфельду в Колумбии в 50-х годах, был без присмотра и использовал категорические данные. Примером является poLCA R. Совсем недавно были разработаны модели конечных смесей для LCA под наблюдением. Я не знаю о модулях R, но есть недорогое коммерческое программное обеспечение, которое делает это ( Latent Gold ). На сайте LG есть хорошие статьи о LCA
Майк Хантер,

Ответы:


1

Это немного зависит от вашей цели, но если вам нужен инструмент визуализации, есть хитрость с применением многомерного масштабирования для вывода случайной близости от леса, которая может создавать красивые картинки и работать для смеси категориальных и непрерывных данных. Здесь вы бы классифицировали виды в соответствии с вашими предикторами. Но - и это большая оговорка - я не знаю, знает ли кто-нибудь действительно, что означают результаты этих визуализаций.

Другой альтернативой может быть применение многомерного масштабирования к чему-то похожему на подобие Гауэра.

Есть висячий вопрос - какова ваша конечная цель? На какой вопрос вы хотите ответить? Мне нравятся эти методы как исследовательские инструменты, которые, возможно, ведут вас к тому, чтобы задавать больше и лучше вопросов, но я не уверен, что они объясняют или говорят вам сами.

Может быть, я читаю слишком много в вашем вопросе, но если вы хотите исследовать, какие переменные предиктора имеют значения для гибридов, расположенных между двумя чистыми видами, возможно, вам лучше построить модель для оценки значений для переменных предиктора, которые приводят к видам и гибридам напрямую. Если вы хотите измерить, как переменные связаны друг с другом, возможно, построите матрицу корреляции - и для этого есть много интересных визуализаций.


Спасибо за вклад. В конечном счете, все, что я хочу от этого анализа, - это получить количественную меру сходства некоторых видов по сравнению с другими (у меня есть два вида, которые по внешнему виду гештальта выглядят как другие близкородственные виды, но генетически кажутся похожими на разные виды, предполагая древнюю гибридизацию). Основной вопрос этого исследовательского вопроса состоит в том, чтобы исследовать генетику группы, и этот морфологический анализ просто добавит всей биологической истории. Приведет ли это многомерное масштабирование к визуализации, подобной PCA?
JD

Вы получаете аналогичные визуализации. Идея / интуиция MDS состоит в том, чтобы построить отображение из многомерного пространства (для тебя - пространство морфологических характеристик) в какое-то низкоразмерное пространство (например, плоскую плоскость 2D) так, чтобы расстояние в многомерном пространстве было «в значительной степени такой же ", как в низком пространстве. Затем вы можете построить 2D плоскую плоскость. Но это зависит от получения метрики расстояния для многомерного пространства откуда-то.
Патрик Калдон
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.