El propósito del análisis de componentes principales
El propósito del análisis de componentes principales es explicar la cantidad máxima de varianza utilizando el número mínimo de componentes principales.
Introducción:
El análisis de componentes principales es un método estadístico que se utiliza para analizar la correlación entre múltiples variables y transformarlas en algunas variables no correlacionadas llamadas componentes principales. El propósito del análisis de componentes principales es reducir la dimensionalidad de los datos, simplificar la estructura de los datos, extraer la información más importante de los datos y al mismo tiempo minimizar la pérdida de información.
Pasos básicos:
1. Estandarizar los datos originales para que la media de cada variable sea 0 y la varianza sea 1.
2. Calcule la matriz de covarianza o matriz de coeficientes de correlación de los datos originales para reflejar la relación lineal entre variables.
3. Realice la descomposición de valores propios o la descomposición de valores singulares en la matriz de covarianza o la matriz de coeficientes de correlación para obtener valores propios y vectores propios.
4. Seleccione los vectores propios correspondientes a los k valores propios más grandes para formar una matriz P.
5. Utilice la matriz P para transformar linealmente los datos originales para obtener una nueva matriz de datos Z. Cada columna es un componente principal.
6. Determine el número final de componentes principales retenidos en función de indicadores como la proporción de varianza explicada, la proporción de varianza acumulada explicada y el gráfico de grava de los componentes principales.
7. Nombrar, explicar y aplicar los componentes principales retenidos, como el cálculo del peso, la evaluación integral, etc.
Ventajas y desventajas del análisis de componentes principales:
Ventajas:
1. Reducción de la dimensionalidad de los datos
El PCA puede reducir los datos de alta dimensión. Reducir la dimensionalidad, simplificando así la complejidad de los datos. Al retener el contenido de información de los componentes principales, se puede reducir el número de características y mejorar la eficiencia del algoritmo.
2. Extracción de características
PCA puede extraer automáticamente las características más representativas de los datos originales. Estas características a menudo pueden describir mejor la variabilidad de los datos y ayudarnos a comprenderlos e interpretarlos mejor.
3. Descorrelación
PCA puede transformar linealmente las características de los datos originales para que las nuevas características no estén correlacionadas, eliminando así posibles redundancias en los datos originales y su relevancia.
Desventajas:
1. Pérdida de información
En el proceso de reducción de dimensionalidad, para lograr el propósito de la compresión de datos, inevitablemente va acompañado de la pérdida de información. Los datos de dimensiones inferiores no pueden restaurar completamente los datos originales, por lo que habrá una cierta pérdida de información.
2. Mala interpretabilidad
PCA es un método de reducción de dimensionalidad no supervisado y su extracción de características de datos se basa en estadísticas matemáticas. Por lo tanto, los componentes principales obtenidos por PCA a menudo se presentan en forma numérica, lo que es difícil de interpretar y comprender directamente.
3. Sensibilidad
Para datos con valores atípicos o mucho ruido, el PCA se ve afectado fácilmente, lo que puede generar resultados sesgados.