Comparación de varios métodos de clasificación de datos de teledetección
Existen muchos métodos de clasificación temática de datos de teledetección de uso común. Desde la perspectiva de los métodos de clasificación y toma de decisiones, se pueden dividir en clasificadores estadísticos, clasificadores de redes neuronales, clasificadores de sistemas expertos, etc. Desde la perspectiva de si se necesitan datos de entrenamiento, se pueden dividir en clasificadores supervisados y clasificadores no supervisados.
1. Métodos de clasificación estadística
Los métodos de clasificación estadística se dividen en métodos de clasificación no supervisados y métodos de clasificación supervisados. Los métodos de clasificación no supervisados no necesitan seleccionar píxeles de categorías conocidas para el entrenamiento del clasificador, mientras que los métodos de clasificación supervisados necesitan seleccionar una cierta cantidad de píxeles de categorías conocidas para entrenar al clasificador para estimar los parámetros en el clasificador. Los métodos de clasificación no supervisados no requieren ningún conocimiento previo y no introducirán errores debido a la selección de muestras de entrenamiento. Sin embargo, las categorías naturales obtenidas mediante la clasificación no supervisada a menudo no coinciden con las categorías de interés de la investigación. En consecuencia, la clasificación supervisada generalmente requiere categorías de clasificación predefinidas. La selección de datos de entrenamiento puede carecer de representatividad, pero también se pueden descubrir errores de clasificación graves durante el proceso de entrenamiento.
1. Clasificador no supervisado
El método de clasificación no supervisado es generalmente un algoritmo de agrupación. Los métodos de clasificación no supervisada de agrupamiento más utilizados son el método de agrupamiento del algoritmo K-Means (Duda y Hart, 1973) y el algoritmo de análisis de datos iterativo y autoorganizado (ISODATA). Las descripciones de sus algoritmos se pueden encontrar en la literatura general sobre reconocimiento de patrones estadísticos.
Generalmente, los resultados de clasificación obtenidos mediante métodos de agrupamiento simples tienen baja precisión, por lo que los métodos de agrupamiento por sí solos rara vez se utilizan para la clasificación temática de datos de teledetección. Sin embargo, al realizar un análisis de conglomerados de datos de teledetección, inicialmente podemos comprender la distribución de cada categoría y obtener la probabilidad previa de cada categoría en la clasificación supervisada de máxima verosimilitud. Los vectores medios y las matrices de covarianza de las clases finales del análisis de conglomerados se pueden utilizar en el proceso de clasificación de máxima verosimilitud (Schowengerdt, 1997).
2. Clasificador supervisado
El clasificador supervisado es el clasificador más utilizado en la clasificación temática de datos de teledetección. En comparación con los clasificadores no supervisados, los clasificadores supervisados necesitan seleccionar una cierta cantidad de datos de entrenamiento para entrenar al clasificador, estimar los parámetros clave en el clasificador y luego usar el clasificador entrenado para clasificar píxeles en varias categorías. El proceso de clasificación supervisada generalmente incluye cuatro pasos: definir categorías de clasificación, seleccionar datos de entrenamiento, clasificar clasificadores y clasificación final de píxeles (Richards, 1997). Cada paso tiene un impacto significativo en la incertidumbre de la clasificación final.
Los clasificadores supervisados se dividen en dos tipos: clasificadores paramétricos y clasificadores no paramétricos. Los clasificadores paramétricos requieren que los datos se clasifiquen para cumplir con una determinada distribución de probabilidad, mientras que los clasificadores no paramétricos no tienen requisitos para la distribución de probabilidad de los datos.
Los clasificadores comúnmente utilizados en la clasificación de datos de teledetección incluyen el clasificador de máxima verosimilitud, el clasificador de distancia mínima, el clasificador de distancia de Mahalanobis, el clasificador de vecindad K-más cercano (K-NN) y un clasificador paralelepípedo. Los clasificadores de máxima verosimilitud, distancia mínima y distancia de Mahalanobis se presentaron en detalle en el Capítulo 3. A continuación se ofrece una breve introducción al clasificador K-NN y al clasificador paralelepípedo.
El clasificador K-NN es un clasificador no paramétrico. La regla de decisión de este clasificador es clasificar el píxel en la categoría representada por el vector de características de datos de entrenamiento más cercano a su vector de características en el espacio de características (Schowengerdt, 1997). Cuando K = 1 en el clasificador, se denomina clasificador 1-NN. En este momento, la categoría de los datos de entrenamiento más cercana al píxel a clasificar se utiliza como categoría del píxel; Se utiliza la categoría con el mayor número de píxeles en los K datos de entrenamiento recientes como categoría del píxel. También se puede calcular el recíproco de la distancia euclidiana entre el vector de características del píxel. clasificar y sus K píxeles vecinos más cercanos como peso, y entrenar con el valor de peso más grande. La categoría de los datos se utiliza como la categoría del píxel a clasificar. Hardin (1994) proporciona una discusión en profundidad del clasificador K-NN.
El método de clasificación paralelepípedo es un algoritmo de clasificación no paramétrico sencillo.
Este método determina el rango de valores de brillo de cada categoría de píxeles calculando los límites superior e inferior del histograma de cada banda de datos de entrenamiento. Para cada categoría, los límites superior e inferior de cada banda juntos forman una caja multidimensional o paralelepípedo. Por tanto, existen M paralelepípedos para M categorías. Cuando el valor de brillo de un píxel a clasificar cae dentro de un paralelepípedo de una determinada categoría, el píxel se clasifica en la categoría representada por el paralelepípedo. El clasificador paralelepípedo se puede representar mediante el problema de clasificación de datos de teledetección de dos bandas de la Figura 5-1. Las elipses en la figura representan la distribución del valor de brillo de cada categoría estimada a partir de los datos de entrenamiento, y los rectángulos representan el rango de valores de brillo de cada categoría. El brillo de un píxel se encuentra dentro del rango de brillo de una categoría, categoría en la que se clasifica.
Figura 5-1 Diagrama esquemático del método de clasificación paralelepípedo
3. Evaluación de clasificadores estadísticos
El rendimiento de varios clasificadores estadísticos en la clasificación de datos de teledetección varía. No es lo mismo, esto no solo está relacionado con el algoritmo de clasificación, sino también con las características de distribución estadística de los datos, la selección de muestras de entrenamiento y otros factores.
Los algoritmos de agrupamiento no supervisados no tienen requisitos sobre las características estadísticas de los datos clasificados. Sin embargo, dado que los métodos de clasificación no supervisados no consideran ningún conocimiento previo, la precisión general de la clasificación es relativamente baja. En más casos, el análisis de conglomerados se utiliza como análisis exploratorio antes de la clasificación no supervisada para comprender la distribución y las características estadísticas de cada categoría en los datos clasificados, y para proporcionar la base para la definición de la categoría, la selección de datos de entrenamiento y el proceso de clasificación final en la clasificación supervisada. Proporcionar conocimientos previos. En aplicaciones prácticas, los métodos de clasificación supervisada se utilizan generalmente para clasificar datos de teledetección.
El método de clasificación de máxima verosimilitud es el método de clasificación más utilizado en la clasificación de datos de teledetección. La clasificación de máxima verosimilitud pertenece al método de clasificación paramétrica. La clasificación de máxima verosimilitud se considera el método de clasificación con la mayor precisión de clasificación cuando hay suficientes muestras de entrenamiento, cierto conocimiento de la distribución de probabilidad previa de la categoría y los datos están cerca de una distribución normal. Pero cuando hay menos datos de entrenamiento, el sesgo en las estimaciones de los parámetros de media y covarianza puede afectar seriamente la precisión de la clasificación. Swain y Davis (1978) creen que en la clasificación de máxima verosimilitud del espacio espectral N-dimensional, las muestras de datos de entrenamiento de cada categoría deben alcanzar al menos 10 × N y, en las condiciones posibles, es mejor alcanzar más de 100 × N. . Además, en muchos casos, la distribución estadística de los datos de teledetección no cumple con el supuesto de distribución normal y es difícil determinar la probabilidad previa de cada categoría.
El clasificador de distancia mínima puede considerarse como un método de clasificación de máxima verosimilitud sin considerar la matriz de covarianza. Cuando hay menos muestras de entrenamiento, la precisión de la estimación de la media es generalmente mayor que la estimación de la matriz de covarianza. Por lo tanto, bajo la condición de muestras de entrenamiento limitadas, es posible estimar solo la media de las muestras de entrenamiento sin calcular la matriz de covarianza. De esta forma, el algoritmo de máxima verosimilitud degenera en el algoritmo de mínima distancia. Dado que no se considera la covarianza de los datos, la distribución de probabilidad de las clases es simétrica y las varianzas de las distribuciones de características espectrales de cada clase se consideran iguales. Obviamente, cuando hay suficientes muestras de entrenamiento para garantizar una estimación precisa de la matriz de covarianza, la precisión del resultado de clasificación de máxima verosimilitud es mayor que la precisión de distancia mínima. Sin embargo, cuando hay menos datos de entrenamiento, la precisión de la clasificación de distancia mínima puede ser mayor que la precisión de la clasificación de máxima verosimilitud (Richards, 1993). Además, el algoritmo de distancia mínima no tiene requisitos sobre las características de distribución de probabilidad de los datos.
El clasificador de distancia de Mahalanobis puede considerarse como la clasificación de máxima verosimilitud cuando las matrices de covarianza de cada categoría son iguales. Dado que se supone que las matrices de covarianza de cada categoría son iguales, en comparación con el método de máxima verosimilitud, se pierde la información sobre la diferencia en las matrices de covarianza entre categorías, pero en comparación con el método de distancia mínima, mantiene una cierta dirección a través de la covarianza. matriz de sensibilidad (Richards, 1993). Por lo tanto, el clasificador de distancia de Mahalanobis puede considerarse como un clasificador entre los clasificadores de máxima verosimilitud y de mínima distancia. Al igual que la clasificación de máxima verosimilitud, el clasificador de distancia de Mahalanobis requiere que los datos sigan una distribución normal.
Un problema importante del clasificador K-NN es que se requiere un gran conjunto de datos de entrenamiento para garantizar la convergencia del algoritmo de clasificación (Devijver y Kittler, 1982).
Otro problema del clasificador K-NN es que el error en la selección de la muestra de entrenamiento tiene un gran impacto en los resultados de la clasificación (Cortijo y Blanca, 1997). Al mismo tiempo, la complejidad computacional del clasificador K-NN aumenta a medida que se expande el rango del vecino más cercano. Sin embargo, debido a que el clasificador K-NN considera la relación espacial en la vecindad de píxeles, en comparación con otros clasificadores espectrales, hay menos "fenómeno de sal y pimienta" en los resultados de la clasificación.
Las ventajas del método de clasificación paralelepípedo son que es simple, de funcionamiento rápido y no depende de ningún requisito de distribución de probabilidad. Sus deficiencias son: en primer lugar, los píxeles que quedan fuera del rango de valores de brillo de todas las categorías solo pueden clasificarse como categorías desconocidas, en segundo lugar, es difícil distinguir sus categorías para los píxeles que se encuentran dentro de los rangos de brillo superpuestos de cada categoría (como se muestra en la Figura 5; en 1).
Las características de varios métodos de clasificación estadística se pueden resumir en la Tabla 5-1.
2. Clasificador de redes neuronales
La mayor ventaja de las redes neuronales para la clasificación de datos de teledetección es su capacidad para tratar datos de entrada de múltiples fuentes por igual, incluso si estos datos de entrada son completamente diferentes. características de distribución estadística, pero debido a que los pesos de las conexiones entre una gran cantidad de neuronas en cada capa de la red neuronal son opacos, es difícil de controlar para los usuarios (Austin, Harding y Kanellopoulos et al., 1997).
La clasificación de datos de teledetección de redes neuronales se considera una de las áreas de investigación más candentes en la clasificación de datos de teledetección (Wilkinson, 1996; Kimes, 1998). Los clasificadores de redes neuronales también se pueden dividir en dos tipos: clasificadores supervisados y clasificadores no supervisados. Dado que el clasificador de redes neuronales no tiene ningún requisito sobre la distribución estadística de los datos clasificados, el clasificador de redes neuronales es un clasificador no paramétrico.
La red neuronal más utilizada en la clasificación de datos de teledetección es el modelo de perceptrón multicapa (multi-layer percep-tron, MLP). La estructura de red de este modelo se muestra en la Figura 5-2. La red consta de tres capas: capa de entrada, capa oculta y capa de salida. La capa de entrada sirve principalmente como interfaz de entrada de datos de entrada y de red neuronal, y no tiene ninguna función de procesamiento en sí misma. Las capacidades de procesamiento de la capa oculta y la capa de salida están incluidas en cada nodo. La estructura de entrada es generalmente el vector de características de los datos a clasificar. Generalmente es el vector multiespectral de los píxeles de entrenamiento y cada nodo representa una banda espectral. Por supuesto, el nodo de entrada también puede ser la información del contexto espacial del píxel (como la textura) o el vector espectral de múltiples períodos (Paola y Schowengerdt, 1995).
Tabla 5-1 Comparación de varios clasificadores estadísticos
Figura 5-2 Estructura de red neuronal perceptrón multicapa
Para la estructura de la capa oculta y la salida capa En pocas palabras, el proceso de procesamiento es una función de activación. Suponiendo que la función de excitación es f(S), para los nodos de la capa oculta, existen:
Investigación sobre la incertidumbre de la información de teledetección
Entre ellos, pi es la entrada del nodo de capa oculta; hj es la salida del nodo de capa oculta; w es el peso que conecta los nervios en cada capa.
Para la capa de salida, existe la siguiente relación:
Investigación sobre la incertidumbre de la información de teledetección
Donde, hj es la entrada de la capa de salida; ok es la salida La salida de la capa.
La función de excitación se expresa generalmente como:
Investigación sobre la incertidumbre de la información de detección remota
Una vez determinada la estructura de la red, se debe entrenar la red para realizar la red tiene la capacidad de predecir resultados de salida basados en nuevos datos de entrada. El más utilizado es el algoritmo de entrenamiento de retropropagación (Back-Propagation). Este algoritmo ingresa los datos de entrenamiento de la capa de entrada en la red, genera aleatoriamente el peso de conexión de cada nodo, lo calcula de acuerdo con las fórmulas en las fórmulas (5-1), (5-2) y (5-3), y compara la salida de la red con la esperada. Se comparan los resultados (categorías de datos de entrenamiento) y se calcula el error. Este error se propaga hacia atrás a través de la red y se utiliza para ajustar los pesos de conexión entre nodos.
El método para ajustar los pesos de las conexiones es generalmente la regla delta (Rumelhart, et al., 1986):
Investigación sobre la incertidumbre de la información de teledetección
Donde, eta es la tasa de aprendizaje ( tasa de aprendizaje); δk es la tasa de cambio de error; α es el parámetro de impulso.
Los procesos de propagación hacia adelante y hacia atrás de errores de dichos datos se repiten continuamente hasta que el error de la red se reduce a un nivel preestablecido y finaliza el entrenamiento de la red. En este momento, los datos a clasificar se pueden ingresar a la red neuronal para su clasificación.
Además del modelo de red neuronal de perceptrón multicapa, también se utilizan modelos de red con otras estructuras para la clasificación de datos de teledetección. Por ejemplo, la red autoorganizada de Kohonen se utiliza ampliamente en el análisis de agrupamiento no supervisado de datos de teledetección (Yoshida et al., 1994; Schaale et al., 1995); red de teoría de resonancia adaptativa (Silva, S y Caetano, M.1997) , Fuzzy ART Maps (Fischer, M.M y Gopal, S, 1997), funciones de base radial (Luo Jiancheng, 1999), etc. también se utilizan para la clasificación de datos de teledetección.
Muchos factores afectan la precisión de la clasificación de datos de teledetección de las redes neuronales. Foody y Arora (1997) creen que la estructura de la red neuronal, la dimensionalidad de los datos de teledetección y el tamaño de los datos de entrenamiento son factores importantes que afectan la clasificación de la red neuronal.
La estructura de la red neuronal, especialmente el número de capas de la red y el número de neuronas en cada capa, es el tema más crítico en el diseño de redes neuronales. La estructura de la red no sólo afecta la precisión de la clasificación, sino que también tiene un impacto directo en el tiempo de entrenamiento de la red (Kavzoglu y Mather, 1999). Para las redes neuronales utilizadas para la clasificación de datos de teledetección, dado que el número de neuronas en la capa de entrada y la capa de salida está determinado por la dimensión de la característica y el número total de categorías de datos de teledetección respectivamente, el diseño de la estructura de la red resuelve principalmente el problema de el número de capas ocultas y el número de categorías. El número de neuronas en la capa oculta. Generalmente, una estructura de red demasiado compleja describe mejor los datos de entrenamiento, pero tiene una menor precisión de clasificación, que es el fenómeno de "sobreajuste". Una estructura de red demasiado simple no puede aprender bien los patrones en los datos de entrenamiento, por lo que la precisión de la clasificación es baja.
La estructura de la red generalmente se determina mediante experimentos. Hirose et al. (1991) propusieron un método. Este método comienza con el entrenamiento desde una pequeña estructura de red. Cada vez que el entrenamiento de la red cae en un óptimo local, se agrega una neurona de capa oculta y luego se entrena nuevamente, y así sucesivamente hasta que el entrenamiento de la red converge. Este enfoque puede dar como resultado una estructura de red demasiado compleja. Una solución es restar las neuronas agregadas más recientemente siempre que la red se considere convergente, hasta que la red ya no converja, y luego la última red convergente se considera la estructura óptima. La desventaja de este método es que requiere mucho tiempo. La "poda" es otro método para determinar la estructura de una red neuronal. A diferencia del método de Hirose et al. (1991), el "método de poda" comienza a partir de una estructura de red grande y luego elimina gradualmente las neuronas consideradas redundantes (Sietsma y Dow, 1988). La ventaja de comenzar con una red grande es que la red aprende rápidamente y es insensible a las condiciones iniciales y los parámetros de aprendizaje. El proceso de “poda” se repite hasta que la red ya no converge y la última red convergente se considera óptima (Castellano, Fanelli y Pelillo, 1997).
La cantidad de muestras de datos de entrenamiento necesarias para el entrenamiento de redes neuronales varía según las diferentes estructuras de red, la cantidad de categorías y otros factores. Sin embargo, el requisito básico es que los datos de entrenamiento describan adecuadamente categorías representativas. Foody et al. (1995) creen que el tamaño de los datos de entrenamiento tiene un impacto significativo en la precisión de la clasificación de la teledetección, pero en comparación con los clasificadores estadísticos, los datos de entrenamiento de las redes neuronales pueden ser relativamente pequeños.
El impacto de la dimensión de datos de las variables categóricas en la precisión de la clasificación es un problema común en la clasificación de datos de teledetección.
Muchos estudios han demostrado que la separabilidad entre categorías generales y la precisión de la clasificación final aumentará a medida que aumente la dimensión de los datos. Después de alcanzar cierto punto, la precisión de la clasificación disminuirá a medida que la dimensión de los datos continúe aumentando (Shahshahani y Landgrebe, 1994). Este es el famoso fenómeno Hughes. Generalmente, es necesario eliminar bandas con alta correlación de información mediante la selección de características o eliminar información redundante mediante el análisis de componentes principales. La dimensionalidad de los datos de clasificación también tiene un impacto significativo en la precisión de la clasificación de las redes neuronales (Battiti, 1994), pero el fenómeno de Hughes no es tan grave como en los clasificadores estadísticos tradicionales (Foody y Arora, 1997).
A través de la práctica a largo plazo, Kanellopoulos (1997) cree que un modelo ANN eficaz debe considerar los siguientes puntos: estructura de red neuronal adecuada, algoritmo de aprendizaje optimizado, preprocesamiento de datos de entrada, evitar oscilaciones y utilizar clasificación híbrida. métodos. El modelo híbrido incluye una combinación de múltiples modelos de ANN, una combinación de ANN y clasificadores tradicionales, una combinación de ANN y procesadores de conocimiento, etc.
3. Otros clasificadores
Además de los clasificadores estadísticos y clasificadores de redes neuronales anteriores, existe una variedad de clasificadores que se utilizan para la clasificación de imágenes de teledetección. Por ejemplo, el clasificador difuso es un clasificador para situaciones en las que la categoría del terreno cambia continuamente sin límites obvios. Determina el grado de membresía difusa de un píxel que pertenece a cada categoría mediante un mecanismo de inferencia difusa. Los clasificadores difusos generales incluyen el método de agrupamiento difuso de C-medias, el método de clasificación difuso supervisado (Wang, 1990), el modelo de píxeles mixtos (Foody y Cox, 1994; Settle y Drake, 1993) y varios métodos de redes neuronales artificiales (Kanellopoulos et al., 1992). ; Paola y Schowengerdt, 1995). Dado que el resultado de la clasificación difusa es el grado de pertenencia difusa del píxel que pertenece a cada categoría, también se denomina "clasificador suave", mientras que el método de clasificación tradicional se denomina "clasificador duro".
El otro tipo es el clasificador contextual, que es un clasificador que considera de manera integral las características espectrales y espaciales de la imagen. Los clasificadores espectrales generales sólo consideran las características espectrales de los píxeles. Sin embargo, en las imágenes de teledetección, generalmente existe una autocorrelación espacial entre píxeles adyacentes. Los píxeles con una fuerte autocorrelación espacial generalmente tienen más probabilidades de pertenecer a la misma categoría. Tener en cuenta las características espectrales y espaciales de los píxeles al mismo tiempo puede mejorar la precisión de la clasificación de imágenes y reducir el "fenómeno de sal y pimienta" en los resultados de la clasificación. Este fenómeno es más pronunciado cuando existe superposición en el espacio espectral entre categorías (Cortijo et al., 1995). Este "fenómeno de sal y pimienta" se puede eliminar mediante el filtrado de clasificación posterior al procesamiento, o se puede resolver agregando información que represente la relación de vecindad de los píxeles durante el proceso de clasificación.
La información contextual se puede añadir de diferentes formas durante el proceso de clasificación. Uno es agregar información de textura de imagen a las características de clasificación; el otro es la tecnología de segmentación de imágenes, incluidos algoritmos comunes de crecimiento/fusión de regiones (Ketting y Landgrebe, 1976), métodos de detección de bordes y métodos de campo aleatorio de Markov. Rignot y Chellappa (1992) utilizaron el método de campo aleatorio de Markov para clasificar imágenes SAR y lograron buenos resultados. Paul Smits (1997) propuso un método de campo aleatorio de Markov que mantiene los detalles de los bordes y lo utilizó para la clasificación de imágenes SAR. combinó el método de clasificación jerárquica y el método de campo aleatorio de Markov para clasificar imágenes SAR y logró una mayor precisión. Cortijo (1997) utilizó una clasificación espectral no paramétrica para clasificar imágenes de detección remota y luego utilizó el algoritmo ICM para realizar la clasificación inicial.