Colección de citas famosas - Colección de consignas - Utilice PCA para reducir la dimensionalidad de los datos

Utilice PCA para reducir la dimensionalidad de los datos

La reducción de dimensionalidad se utiliza a menudo como paso de preprocesamiento, entre los cuales son más populares el análisis de componentes independientes, el análisis factorial y el análisis de componentes principales, siendo el análisis de componentes principales (PCA) el más extendido.

El análisis de componentes principales combina múltiples variables originales en varios componentes principales mediante combinación lineal, de modo que cada componente principal se convierte en una combinación lineal de las variables originales. El propósito de esta transformación es, por un lado, reducir significativamente la dimensionalidad de los datos originales y, al mismo tiempo, descubrir la relación entre los atributos de los datos originales en el proceso.

Los pasos principales del análisis de componentes principales son los siguientes:

1) La normalización de cada variable debe realizarse primero. El propósito de la estandarización es escalar los datos en proporción para hacerlo. cae en un Dentro de un pequeño intervalo, diferentes variables pueden tener una base igual para el análisis y la comparación después de la estandarización.

2) Seleccione la matriz de covarianza o matriz de correlación para calcular las raíces propias y los vectores propios correspondientes.

3) Calcule la tasa de contribución de la variación y seleccione el número apropiado de componentes principales de acuerdo con el umbral de la tasa de contribución de la variación.

4) Asigne un nombre al componente principal seleccionado de acuerdo con el tamaño de la carga del componente principal.

5) Calcule la puntuación de cada componente principal según la carga del componente principal.

La generalización y extensión de componentes principales se denomina análisis factorial. El análisis factorial intentará construir varios factores comunes con significados claros a partir de la síntesis de información variable original, es decir, se utilizan unos pocos factores; para describir la relación entre múltiples indicadores, y las variables relativamente cercanas se clasifican en la misma categoría, y cada categoría de variables es un factor. Se llaman factores porque en realidad no son mensurables y sólo pueden explicarse.

El análisis de componentes principales es un caso especial de análisis factorial. Las diferencias y conexiones entre los dos se reflejan principalmente en los siguientes aspectos:

El análisis de componentes principales expresará los componentes principales en. las variables originales. combinación lineal, mientras que el análisis factorial expresa las variables originales como una combinación lineal de factores. Esta distinción es la más intuitiva y fácil de recordar.

? El objetivo del análisis de componentes principales es explicar la varianza total de las variables originales, mientras que el objetivo del análisis factorial es explicar la covarianza de las variables originales.

? En el análisis de componentes principales, hay varios componentes principales dependiendo de cuántas variables originales hay. En el análisis factorial, la cantidad de factores se puede especificar manualmente de acuerdo con las necesidades del escenario empresarial. El número de factores especificados es diferente, los resultados del análisis también serán diferentes.

? En el análisis de componentes principales, cuando los valores propios de una determinada matriz de covarianza o matriz de correlación son únicos, los componentes principales también son únicos, pero en el análisis factorial, los factores no son únicos y mediante rotación. Se pueden obtener diferentes factores.

El análisis de componentes principales y el análisis factorial se utilizan principalmente en el procesamiento de datos, la reducción de dimensionalidad y la exploración de relaciones entre variables en la práctica de operaciones de datos. También son herramientas de análisis y métodos de análisis básicos e importantes en estadística. , que también son ampliamente utilizados en algunos análisis temáticos.

PCA utiliza una transformación ortogonal para transformar las variables aleatorias originales cuyos componentes están correlacionados en nuevas variables aleatorias cuyos componentes no están correlacionados. La función principal es reducir la dimensionalidad de datos de alta dimensión. PCA reemplaza las n características originales con un número menor de k características. Las nuevas características son combinaciones lineales de las características antiguas. Estas combinaciones lineales maximizan la varianza de la muestra e intentan que las nuevas k características no estén correlacionadas entre sí.

PCA puede identificar las características principales de los datos girando los ejes de coordenadas en la dirección de la varianza máxima de los datos. La dirección con la mayor variación se selecciona como el primer eje de coordenadas, y los ejes de coordenadas posteriores son ortogonales al eje de coordenadas anterior. El análisis de valores propios en la matriz de covarianza se puede obtener utilizando una serie de ejes de coordenadas ortogonales.

Ventajas: Reduce la complejidad de los datos e identifica las características más importantes.

Desventajas: No es necesariamente necesario y se puede perder información útil.

Los principales algoritmos de PCA son los siguientes:

Organizar el formulario de datos para facilitar el uso del modelo

Calcular el valor promedio de cada característica de la muestra;

Reste el valor medio de la característica de cada dato de muestra (procesamiento de normalización);

Encuentre la matriz de covarianza

Encuentre los valores propios y los vectores propios de; la matriz de covarianza

Reorganice los valores propios y los vectores propios (valores propios de mayor a menor

Calcule la tasa de contribución acumulada de los valores propios

> Calcular el acumulado La tasa de contribución selecciona un subconjunto del conjunto de vectores de características de acuerdo con una proporción específica;

Convierte los datos originales (después del tercer paso).

La descomposición de la matriz de covarianza se puede lograr mediante vectores propios de la matriz simétrica o mediante SVD de la matriz de descomposición. En Scikit-learn, SVD también se utiliza para implementar el algoritmo PCA. Aquí se proporciona el algoritmo original con SVD y la clase PCA implementada por el módulo Scikit-learn.