Преобразование текстовых данных в категории. Вы можете попробовать разные варианты количества информации, которую должны содержать категории, но для каждой переменной должны существовать определенные категории. В качестве примера я возьму переменную, которая пришла из текстового поля анкеты опроса относительно предпочтительного способа получения людьми работы.
Во-первых, нам нужно убедиться, что ответы с одинаковым значением написаны одинаково и относятся к одной и той же категории (например, «на велосипеде», «на велосипеде», «на велосипеде» имеют одинаковое значение). Затем вы можете попробовать еще больше объединить в менее подробные категории (например, объединить «трамвай», «метро» и «автобус» в «Средства общественного транспорта») или даже больше (например, «Прогулка», «Бег», «Велоспорт» в »). Физическая активность ») в зависимости от того, что вы пытаетесь выяснить.
Вы даже можете поместить несколько различных комбинаций в свой набор данных, и тогда последующие шаги определят, какие из них будут использоваться для анализа. В случаях, когда текстовые данные могут быть «переведены» в упорядоченные переменные, убедитесь, что вы делаете это (например, если у вас есть «small, medium, high», преобразуйте их в «1,2,3»).
Principal Component Analysis
илиNon-Negative Matrix Factorization
уменьшит количество переменных, обогатит разреженные данные и преобразует все переменные в количественные. Кроме того, оценивая качество модели уменьшения размерности, автор вопроса может оценить полезность текстовых переменных.