В рамках университетского задания я должен провести предварительную обработку данных на довольно большом, многомерном (> 10) наборе необработанных данных. Я не статистик в каком-либо смысле этого слова, поэтому я немного смущен тем, что происходит. Заранее извиняюсь за, возможно, смешной простой вопрос - у меня кружится голова, когда я смотрю на разные ответы и пытаюсь пробежаться по статистике.
Я прочитал это:
- PCA позволяет мне уменьшить размерность моих данных
- Это достигается путем объединения / удаления атрибутов / измерений, которые сильно коррелируют (и, таким образом, являются немного ненужными).
- Это достигается путем нахождения собственных векторов на ковариационных данных (благодаря хорошему учебнику, который я прошел, чтобы изучить это)
Что здорово.
Однако я действительно изо всех сил пытаюсь понять, как я могу применить это практически к своим данным. Например (это не тот набор данных, который я буду использовать, а попытка приличного примера, с которым люди могут работать), если бы у меня был набор данных с чем-то вроде ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Я не совсем уверен, как бы я интерпретировал любые результаты.
Большинство учебных пособий, которые я видел в Интернете, дают мне очень математическое представление о PCA. Я провел некоторое исследование этого и проследил за ними - но я все еще не совсем уверен, что это значит для меня, который просто пытается извлечь некоторую форму значения из этой кучи данных, которые я имею перед собой.
Простое выполнение PCA для моих данных (с использованием пакета stats) выплевывает матрицу чисел NxN (где N - число исходных измерений), что для меня совершенно естественно.
Как я могу сделать PCA и взять то, что я получаю таким образом, который я могу затем перевести на простой английский с точки зрения исходных размеров?