Эти термины появляются в некоторых книгах по многомерной статистике. Предположим, у вас есть n
индивидуумы по p
количественным признакам матрицы данных. Затем вы можете построить отдельных людей в виде точек в пространстве, где оси являются объектами. Это будет классический scatterplot, или переменный космический сюжет. Мы говорим, что облако индивидуумов охватывает пространство, определяемое осями-особенностями.
Вы также можете представить диаграмму рассеяния с точками, являющимися переменными, и осями, являющимися индивидуумами. Абсолютно как предыдущий, только перевернутый. Это будет сюжет предметного пространства (или сюжет наблюдательного пространства) с охватывающими его переменными, определяющими его индивидуумы.
Обратите внимание, что если (как часто), n>p
то во втором случае только некоторые p
измерения из n
размеров не являются избыточными; это означает, что вы можете и можете рисовать p
переменные точки на p
трехмерном графике . Кроме того, по традиции переменные точки обычно связаны с началом координат, поэтому они выглядят как векторы (стрелки). Мы используем представление предметного пространства главным образом, чтобы показать отношения между переменными, поэтому мы опускаем оси-предметы и изображаем точки в виде стрелок для удобства.1
Если объекты (столбцы матрицы данных) были отцентрированы до рисования графика пространства объекта, то косинусы углов между переменными векторами равны их корреляциям Пирсона, а длины векторов равны нормам переменных (корневая сумма квадратов ) или стандартные отклонения (если разделить на df ).
Переменное пространство и предметное пространство являются двумя сторонами одной медали, они представляют собой одно евклидово аналитическое пространство, представленное только зеркально по отношению друг к другу. Они имеют одинаковые свойства, такие как ненулевые собственные значения и собственные векторы. Следовательно, можно изображать объекты и переменные рядом друг с другом как точки в пространстве главных осей (или другого ортогонального базиса) этого аналитического пространства, - этот совместный график называется биплотом . Я не знаю точно, что означает термин «пространство данных» - если это означает что-то конкретное, то я предполагаю, что это то общее аналитическое пространство, в котором предметное пространство и переменное пространство являются двумя ипостасями.
Некоторые локальные ссылки:
1n=5
p=2