Hauptkomponentenanalyse kurz und knapp

Was ist die Hauptkomponentenanalyse
Die Hauptkomponentenanalyse (PCA, englisch Principal Component Analysis) ist ein wichtiges Tool in der Statistik, genauer gesagt für die explorative Datenanalyse sowie der multivariaten Statistik. Ziel der Hauptkomponentenanalyse ist die Dimensionsreduktion, also eine kleinere Anzahl an neuen Variablen (die sogenannten Hauptkomponenten) zu bestimmen, welche die wesentlichen Originalvariablen beschreiben und zusammenfassen.
Die Grundidee beruht auf Linearkombinationen, wobei die interessantesten davon betrachtet werden.
- Reduktion vieler Variablen auf einige wenige
- Vereinfachungen in weiterführenden Berechnungen und Konzentration auf die Wichtigsten Variablen
Bei einer Hauptkomponentenanalyse wird eine große Menge an korrelierten Variablen (Datenmenge) durch wenige unkorrelierte Variablen (Komponenten) geordnet nach Wichtigkeit (erklärbarer Varianz) beschrieben.
Vorgehen
Das Vorgehen der Hauptkomponentenanalyse erfolgt hierarchisch, wobei die erste Hauptkomponente das Maximum an Informationen zusammenfasst. Die zweite fasst die das Maximum an fehlenden Informationen zusammen, welche nicht durch die erste Hauptkomponente abgedeckt werden. Dies erfolgt für alle Variablen.
Auswahl
Oftmals beinhalten die ersten zwei bis drei Hauptkomponenten die wesentlichen Informationen über die Daten.
Faktorenwerte (Komponenten), Eigenwerte und Eigenvektor
Die Eigenwerte entsprechen der Varianz, also der quadrierten Standardabweichung, der Hauptkomponenten.
Anmerkungen
Die gesamte Varianz alle Hauptkomponenten entspricht der Gesamtvarianz der Daten. Hauptkomponentenanalysen sollten immer standardisiert werden, ansonsten wird die erste Hauptkomponente in erster Linie nur Informationen über Variablen mit großer Varianz beinhalten. Da die Daten nach Varianz sortiert werden, erfolgt eine implizierte Annahme einer Gauss Verteilung, teilweise allerdings ungeeignet.