Я занимаюсь исследованиями в области образовательных игр, и некоторые из моих текущих проектов включают использование данных из BoardGameGeek (BGG) и VideoGameGeek (VGG) для изучения взаимосвязей между элементами дизайна игр (т. Е. «Набор во Второй мировой войне», «включает в себя бросание кубиков») ) и рейтинги игроков этих игр (т. е. оценки из 10). Каждый из этих элементов дизайна соответствует тегу в системе BGG или VGG, поэтому каждый элемент по сути является дихотомической переменной. В игре есть 1 для каждого тега, который присутствует в базе данных, и 0 для каждого тега, который отсутствует.
Существует множество таких тегов, поэтому я хочу использовать исследовательский факторный анализ (EFA), чтобы создать управляемое количество «жанров», которые отражают шаблоны в игровом дизайне. Обращаясь к нескольким источникам, я понимаю, что, поскольку я работаю с дихотомическими переменными, я должен использовать полихорические корреляции ( тетрахорические , в частности, здесь) вместо Пирсона при определении моих факторов (есть и другие варианты, такие как анализ скрытых признаков). там, но это тот, который я сейчас изучаю).
Из любопытства я придумал два набора факторов, один из которых использовал корреляции Пирсона, а другой - полихорические корреляции (одно и то же число факторов каждый раз). Моя проблема заключается в том, что факторы, вычисленные с использованием корреляций Пирсона, имеют гораздо больше смысла и их легче интерпретировать, чем факторы, рассчитанные с использованием полихорических корреляций. Другими словами, «жанры» из первого набора факторов имеют интуитивный смысл и соответствуют моему пониманию того, как обычно создаются игры; это не относится ко второму набору факторов.
С одной стороны, я хочу убедиться в том, что я отвечаю допущениям тестов, которые я использую, даже если это делает мои результаты менее привлекательными. С другой стороны, я считаю, что часть цели факторного анализа и (в более широком смысле) построения моделей заключается в том, чтобы придумать что-то полезное, и более полезная информация появляется, когда я «нарушаю правила». Достаточно ли необходимости в полезной модели, чтобы перевесить нарушение допущений этого теста? Каковы последствия использования корреляций Пирсона вместо полихорических?