In R besteht das Matrixformat mit prcomp aus Features in den Zeilen und Hauptkomponenten in den Spalten. In Python wird mit sklearn das Format umgekehrt. Die Zeilen sind Beobachtungen (in meinem Fall Verwaltungseinheiten) und die Spalten sind wiederum die Hauptkomponenten. Während sich die Eigenwerte und Komponentenladungen zwischen R und Python unterscheiden, bleiben die kumulativen Summen der erklärten Varianz und die Korrelationen der Merkmale mit den Hauptkomponenten gleich.
Ich habe Schwierigkeiten zu verstehen, warum diese Unterschiede auftreten und wie die Python-Ergebnisse richtig interpretiert werden sollen. Für Einblicke oder Erklärungen wäre ich sehr dankbar.
R:
Code: Select all
data_pca Mobile version
 Mobile version