Postprocesamiento de segmentación de campos aleatorios condicionales (2)
Resumen: Las técnicas más recientes de segmentación y etiquetado de imágenes multiclase utilizan campos aleatorios condicionales definidos sobre píxeles o regiones de la imagen. Si bien los modelos de región suelen tener conexiones densas por pares, los modelos de píxeles son mucho más grandes y solo permiten estructuras de gráficos dispersas. Este artículo define un CRF completamente conectado en todos los píxeles de una imagen, y el gráfico resultante tiene miles de millones de aristas, lo que hace que los métodos de inferencia tradicionales sean inviables. Nuestra principal contribución es proporcionar un algoritmo de inferencia aproximada eficiente para campos aleatorios condicionales completamente conectados, donde los potenciales de borde por pares se definen mediante combinaciones lineales de núcleos gaussianos. Nuestros experimentos muestran que las conexiones estrechas a nivel de píxeles mejoran en gran medida la precisión de la segmentación y la anotación.
Un enfoque común para la segmentación y el etiquetado de imágenes de clases múltiples es ver el problema como una inferencia de máxima probabilidad a posteriori (MAP) definida en un campo aleatorio condicional (CRF) sobre píxeles o regiones de la imagen. La función potencial CRF contiene términos de suavizado que maximizan la coherencia de las etiquetas entre píxeles similares y pueden integrar términos más finos para modelar relaciones contextuales entre clases de objetos.
El modelo CRF básico consta de un potencial unidimensional en un solo píxel o área de imagen y un par de potenciales en píxeles o parches de imagen adyacentes. Esto da como resultado una capacidad limitada de las estructuras CRF adyacentes para modelar conexiones de larga distancia en la imagen y conduce a un suavizado excesivo de los límites de los objetos. Para mejorar la precisión, [8, 12, 9, 13] propusieron un CRF extendido que combina conexiones jerárquicas con potenciales de orden superior definidos en regiones de la imagen. Sin embargo, estos métodos se basan en la segmentación de imágenes no supervisada para calcular la región en la que opera el modelo y, por lo tanto, su precisión está limitada por la segmentación de regiones de imagen no supervisada, lo que dificulta la generación de contornos precisos en límites de objetos complejos, a pesar de lo que se ha logrado significativamente. Se han logrado avances [9, 13, 14].
Este artículo propone una estructura diferente para una segmentación semántica precisa y utiliza un CRF completamente conectado para construir potenciales por pares en todos los píxeles de la imagen. En términos de segmentación semántica, en el pasado se ha utilizado CRF completamente conectado [18, 22, 6, 17], pero el razonamiento es demasiado complejo y solo se puede utilizar para cientos o menos áreas de imagen. La precisión de estos métodos también está limitada por la segmentación de imágenes no supervisada. Por el contrario, nuestro modelo conecta todos los píxeles de la imagen en pares, lo que permite una segmentación y etiquetado muy precisos. El principal desafío es que el modelo es demasiado grande, incluso en imágenes de baja resolución, tiene miles de nodos y miles de millones de aristas.
Nuestra principal contribución es proporcionar un algoritmo de inferencia eficiente para campos aleatorios condicionales completamente conectados, donde los potenciales de borde por pares se definen mediante combinaciones lineales de núcleos gaussianos en espacios de características arbitrarios. El algoritmo se basa en la aproximación del campo medio de la distribución CRF. Esta aproximación se optimiza de forma iterativa a través de una serie de pasos de paso de mensajes, cada uno de los cuales actualiza una única variable agregando información de todas las demás variables. Mostramos que el filtrado gaussiano en el espacio de características puede actualizar el campo medio de todas las variables de un campo aleatorio condicional completamente conectado. Esto nos permite reducir la complejidad computacional de la transmisión de mensajes de cuadrática a linealmente variable mediante el uso de un filtrado aproximado eficiente de alta dimensión [16, 2, 1]. Los algoritmos de inferencia aproximada son sublineales en el número de aristas del modelo.
En la Figura 1, nuestro método puede mejorar el rendimiento de la segmentación multiclase de dos imágenes en el conjunto de datos MSRC-21. La Figura 1 (d) es el resultado de la inferencia MCMC aproximada de CRF completamente conectado [17]. El programa MCMC ha estado funcionando durante 36 horas y solo ha convergido parcialmente al gráfico base. También probamos la inferencia de corte de gráficos en el modelo completamente conectado [11], que aún no convergió después de 72 horas de ejecución. Por el contrario, nuestro método propuesto puede generar etiquetas detalladas a nivel de píxel en 0,2 segundos bajo un solo hilo, como se muestra en la Figura 1 (e). La Sección 6 proporciona evaluaciones cuantitativas de los conjuntos de datos MSRC-21 y PAS-CAL VOC 2010. Hasta donde sabemos, somos los primeros en lograr una inferencia rápida en un modelo CRF totalmente conectado a nivel de píxel.
2 Modelo de formato de informes universal totalmente conectado
Dado un campo aleatorio definido en un conjunto de variables. El alcance de cada variable es un conjunto de etiquetas. Asimismo, dado un campo aleatorio definido sobre un conjunto de variables. Los valores de se distribuyen en todos los tamaños posibles de la imagen de entrada, mientras que los valores de se distribuyen en todas las etiquetas posibles a nivel de píxel. En términos humanos, el vector de color que representa un píxel es la etiqueta del píxel.
El campo aleatorio condicional se describe como una distribución de Gibbs:
En...
En el modelo CRF emparejado completamente conectado, G es un gráfico completo, CG es el conjunto de todos los grupos de emparejamiento unario. La energía de Gibbs correspondiente es
Con I y J en el rango de 1 a n, el potencial de celda u(Xi) de cada celda se calcula independientemente en el clasificador dado. Se genera una distribución en la base de asignación de etiquetas de ciertos características de la imagen. El potencial unario utilizado en nuestra implementación combina descriptores de forma, textura, posición y color y se describe en la Sección 5. Dado que la salida de un clasificador unario para cada píxel es independiente de la salida de los clasificadores para otros píxeles, las etiquetas de mapa generadas únicamente por un clasificador unario suelen ser ruidosas e inconsistentes, como se muestra en la Figura 1(b).
El potencial por pares en nuestro modelo tiene la siguiente forma.
Fj es el vector de características de los píxeles I y J en cualquier espacio de características, w(m) es el peso de la combinación lineal y μ es la función de compatibilidad de etiquetas. Cada núcleo k(m) se caracteriza por una matriz de precisión definida positiva simétrica ∧(m), que define su forma.
Para la segmentación y el etiquetado de imágenes de clases múltiples, utilizamos dos potenciales de kernel sensibles al contraste definidos en términos de los vectores de color Ii e Ij y las posiciones pi y pj:
< Los kernels de apariencia están inspirados en observación de que los píxeles vecinos con colores similares probablemente pertenezcan a la misma clase. La proximidad y la similitud están controladas por los parámetros θ α y θ β. Los granos alisados eliminan pequeñas regiones aisladas [19]. Los parámetros se aprenden de los datos como se describe en la Sección 4.El modelo POTS proporciona una función de compatibilidad de etiquetas simple, (XJ Xi)=[Xi = XJ]. Introduce una penalización para píxeles similares cercanos a los que se les asignan etiquetas diferentes. Aunque este modelo simple funciona bien en la práctica, no tiene en cuenta la compatibilidad entre etiquetas. Por ejemplo, penaliza a un par de píxeles vecinos etiquetados "cielo" y "pájaro" en la misma medida que a un par de píxeles etiquetados "cielo" y "gato". Podemos aprender una función mat(XI,XJ) compatible con simetría general que tenga en cuenta la interacción entre etiquetas, como se explica en la Sección 4.
Tres corolarios válidos de campos aleatorios condicionales completamente conectados
Nuestro algoritmo se basa en la aproximación del campo medio de la distribución CRF. Esta aproximación conduce a un algoritmo iterativo de paso de mensajes para un razonamiento aproximado. Nuestra principal observación es que la transferencia de información en este modelo se puede lograr mediante filtrado gaussiano en el espacio de características. Esto nos permite utilizar una aproximación eficiente de alta dimensión para el filtrado de alta dimensión, reduciendo así la complejidad de la transferencia de información de cuadrática a lineal y obteniendo así un algoritmo de inferencia aproximado para un crf completamente conectado en el número de variables n es lineal y sublineal en el número de aristas del modelo.
3.1 Aproximación de campo medio
La aproximación de campo medio no calcula la distribución exacta P(X), sino que calcula una distribución Q(X) tal que el KL en todas las distribuciones Q es El grado disperso D(QkP) es el más pequeño, Q(X) = Qiqi (xi) [10].
Minimizando la divergencia KL y restringiendo Q(X) y Qi(Xi) a distribuciones válidas, se obtiene la siguiente ecuación de actualización iterativa:
La derivación detallada de la Ecuación 4 se encuentra en la material complementario entregado. Esta formulación actualizada conduce al siguiente algoritmo de inferencia:
Cada iteración del algoritmo 1 realiza un paso de paso de mensaje, una transformación de compatibilidad y una actualización local. Tanto las transiciones de compatibilidad como las actualizaciones locales son lineales y eficientes. El cuello de botella computacional es el paso de mensajes. Para cada variable, este paso requiere sumar todas las demás variables. Por lo tanto, una implementación simple tiene complejidad cuadrática en el número de variables n. A continuación, mostramos cómo utilizar el filtrado aproximado de alta dimensión para reducir el costo computacional de la transmisión de mensajes a lineal.
3.2 Transmisión eficiente de mensajes mediante filtrado de alta dimensión
Desde una perspectiva de procesamiento de señales, el paso de transmisión de información se puede expresar como la convolución del núcleo gaussiano G∧(m) en el espacio de características:
Restamos Qi(l) de la función de convolución.
Esta convolución implementa un filtro de paso bajo, que es esencialmente Q(m)i(l) de banda limitada. Según el teorema de muestreo, esta función se puede reconstruir a partir de un conjunto de muestras cuyo espaciado es proporcional a la desviación estándar del filtro [20]. Por lo tanto, podemos realizar la convolución reduciendo la resolución de Q(l), convolucionando la muestra con G∧(m) y aumentando la resolución del resultado en el punto característico [16].
Una aproximación común al núcleo gaussiano es el núcleo gaussiano truncado, donde todos los valores más allá de dos desviaciones estándar se establecen en cero. Debido a que la distancia entre muestras es proporcional a la desviación estándar, el soporte del núcleo truncado contiene solo un número fijo de puntos de muestra. Por lo tanto, la convolución de cada muestra se puede aproximar agregando valores de solo un número constante de muestras vecinas. Esto significa que el paso aproximado de mensajes se puede realizar en tiempo O(N) [16].
Los algoritmos de filtrado de alta dimensión que utilizan este método todavía tienen una complejidad computacional exponencial en d, pero los esquemas de filtrado inteligentes pueden reducir la complejidad de la operación de convolución a O(nd). Usamos permutoedrático, una estructura de datos convolucional eficiente que divide los simples dispuestos a lo largo del eje d+1 en el espacio de características [1]. Separabilidad de redes hiperpoliédricas basadas en núcleos gaussianos de varianza unitaria. Por lo tanto, necesitamos aplicar una transformación de blanqueamiento ∮f=Uf al espacio de características para usarlo. Utilizando la descomposición de Choleski de ∧(m) a UU T, se descubrió la transformación blanqueadora. En el espacio de transformación, las convoluciones de alta dimensión se pueden descomponer en una serie de convoluciones unidimensionales a lo largo del eje de la red. El proceso de paso de mensajes aproximado resultante es eficiente, aunque es completamente secuencial, no explota el paralelismo o las capacidades de transmisión del hardware de gráficos y puede proporcionar mayor velocidad si es necesario.
4 Investigación
Aprendemos los parámetros del modelo mediante entrenamiento segmentado. Primero se entrena un clasificador unario potenciado utilizando el algoritmo JointBoost [21], utilizando las características descritas en la Sección 5. A continuación, aprendemos los parámetros del núcleo de apariencia w(1), θ α, θ β del modelo de Potts. Combinando la maximización de expectativas con el filtrado de alta dimensión, se puede obtener W (1) de manera efectiva. Desafortunadamente, este método no puede calcular eficientemente los anchos de los núcleos θ y θ ya que sus gradientes contienen un conjunto de núcleos no gaussianos que no son adecuados para la misma técnica de aceleración. Encontramos que para los tres parámetros del kernel w(1), θα y θβ, es más eficiente utilizar la búsqueda en cuadrícula para mantener el conjunto válido.
Los parámetros del núcleo de suavidad w(2) y θ γ tienen poco impacto en la precisión de la clasificación y no mejoran en gran medida el efecto visual. Descubrimos que w=θγ=1 funciona bien en la práctica.
Utilice L-BFGS para conocer el parámetro de compatibilidad μ(a, b) = μ(b, a), entonces, ¿cuál es el logaritmo del modelo para el conjunto de validación de la imagen I? La probabilidad `(μ: i, t) y la correspondiente etiqueta de verdad fundamental t se maximizan. L-BFGS requiere calcular el gradiente `, que es difícil de estimar con precisión porque requiere calcular el gradiente de la función de partición z. En lugar de ello, estimamos el gradiente de z utilizando la aproximación de campo medio descrita en la Sección 3. Esto lleva a una aproximación simple del gradiente para cada imagen de entrenamiento:
donde (I(n), T(n)) es una única imagen de entrenamiento con su etiqueta de verdad fundamental, y T(n)( a) es una imagen binaria en la que el I-ésimo píxel T(n)I(a) tiene el valor 1, si la etiqueta de verdad fundamental en el I-ésimo píxel de T(n) es a, y 0 en caso contrario. La derivación detallada de la Ecuación 6 se proporciona en el material complementario.
La suma de Pj=i k(fi, fj)Tj(b) y Pj=ik(fi, fj)Qi(b) es un valor caro de calcular directamente. Como se mencionó en la Sección 3.2, utilizamos filtrado de alta dimensión para calcular eficientemente estas dos sumas. El tiempo de ejecución del algoritmo de aprendizaje de quinto orden está relacionado linealmente con el número de variables n
5 Implementación
El potencial unario utilizado en nuestra implementación proviene de TextonBoost [19, 13] . Utilizamos el banco de filtros de 17 dimensiones propuesto por Shotton et al. [19] y seguimos el método de Ladicky et al. [13] agregando color, histograma de gradientes orientados (HOG) y características de posición de píxeles. Nuestra evaluación del conjunto de datos MSRC-21 utiliza esta versión extendida de TextonBoost para calcular el potencial unario. Para el conjunto de datos VOC 2010, consideramos la respuesta del detector de objetos del cuadro delimitador [4] para cada clase de objeto como 20 características adicionales. Esto mejora el rendimiento del clasificador unario en VOC 2010 del 13% al 22%. Al entrenar un clasificador de regresión logística en respuesta al clasificador aumentado, obtenemos un 5% adicional.
Para realizar eficientemente el filtrado de alta dimensión, utilizamos una implementación abierta de permutohedrattice [1]. Encontramos que la tasa de muestreo con desviación estándar es la mejor entre todos nuestros experimentos. Los algoritmos de filtrado basados en muestreo subestiman las resistencias de los bordes k(fi,fj) de puntos característicos muy similares.
Una estandarización adecuada puede eliminar la mayoría de los errores. La red poliédrica de permutación permite dos tipos de normalización. La normalización global de la intensidad media del kernel k=1npi y jk(fi,fj) puede corregir el error normal. Los errores regionales se normalizan con KI = PJK (fi, FJ), pero se viola el supuesto de simetría CRF P(asientos, XJ) = P (XJ, XI). Descubrimos que la normalización por píxeles funciona mejor en la práctica.
6 Evaluación
Evaluamos el algoritmo propuesto en dos puntos de referencia estándar para la segmentación y el etiquetado de imágenes de múltiples clases. El primero es el conjunto de datos MSRC-21, que consta de 591 imágenes en color de tamaño 320 × 213 y las correspondientes etiquetas de verdad sobre el terreno para 21 clases de objetos [19]. El segundo es el conjunto de datos PASCAL VOC 2010, que contiene 1928 imágenes en color con un tamaño de aproximadamente 500×400 y * * * 20 clases de objetos y una clase de fondo [3]. El método se evaluó junto con el CRF adyacente de Shotton et al. [19] y el robusto P n-CRF de Kohli et al. [9], que se implementaron a través de referencias disponibles públicamente. Para garantizar una comparación justa, todos los modelos utilizan el potencial unario descrito en la Sección 5. Todos los experimentos se realizaron en un procesador Intel i7-930 con una frecuencia de 2,80 GHz. Todos los demás experimentos se realizaron en un solo núcleo. El algoritmo de inferencia se implementa en un único subproceso de CPU.
Convergencia.
Primero evaluamos la convergencia de la aproximación del campo medio analizando la divergencia KL entre q y p. La Figura 2 muestra la divergencia KL entre q y p en iteraciones sucesivas del algoritmo de inferencia. La divergencia de KL se estimó como una constante como se describe en el material complementario. Resulta que las desviaciones estándar θ α y θ β son diferentes. Las gráficas están alineadas en 20 iteraciones para una comparación visual. En todos los experimentos posteriores, el número de iteraciones se estableció en 10.
Conjunto de datos MSRC-21.
Dividimos el conjunto de datos en un 45 % de imágenes de entrenamiento, un 10 % de imágenes de validación y un 45 % de imágenes de prueba [19]. Los potenciales unarios se aprenden en el conjunto de entrenamiento y todos los parámetros del modelo CRF se aprenden manteniendo la validación. El tiempo total de entrenamiento para CRF es de 40 minutos. En este conjunto de datos, la función de compatibilidad de etiquetas aprendida es la misma que la del modelo de Potts. La Figura 3 proporciona resultados cualitativos y cuantitativos para el conjunto de datos. Informamos medidas estándar de precisión de segmentación de clases múltiples: "global" representa el porcentaje total de píxeles de imagen clasificados correctamente, y "media" es el promedio no ponderado de la precisión de clasificación de cada clase [19, 9]. El algoritmo de inferencia basado en CRF completamente conectado propuesto en este artículo supera significativamente a otros modelos y se compara con los datos reales estándar proporcionados por el conjunto de datos. Las etiquetas de verdad sobre el terreno proporcionadas por el conjunto de datos MSRC-21 son bastante inexactas. En particular, las áreas alrededor de los límites de los objetos normalmente no están marcadas. Esto dificulta la evaluación cuantitativa del rendimiento de los algoritmos que buscan precisión a nivel de píxeles. Siguiendo a Kohli et al. [9], generamos manualmente segmentaciones y etiquetas precisas para un conjunto de imágenes del conjunto de datos MSRC-21. Cada imagen está completamente anotada a nivel de píxel y cuidadosamente etiquetada alrededor de límites complejos. La etiqueta son 94 imágenes representativas del conjunto de datos MSRC-21. Se necesitan una media de 30 minutos para etiquetar una imagen. La Figura 3 muestra algunas imágenes de esta colección de “verdades precisas sobre el terreno”. La Figura 3 informa la precisión de la segmentación de los datos reales del terreno y la evaluación de los datos reales del terreno estándar. Los resultados se obtienen mediante una validación cruzada quíntuple y se utilizan 45 de 94 imágenes para entrenar los parámetros CRF. Los potenciales unarios se aprenden en un único conjunto de entrenamiento que no incluye 94 imágenes anotadas con precisión.
También adoptamos el método propuesto por Kohli et al [9] para evaluar la precisión de la segmentación alrededor de los límites. Específicamente, calculamos el número relativo de píxeles mal clasificados en una banda estrecha alrededor del límite real del objeto (el "tricordograma") obtenido a partir de imágenes precisas del terreno. Como se muestra en la Figura 4, nuestro algoritmo supera el trabajo anterior en todos los anchos de gráficos tripartitos.
Pascal VOC 2010.
Debido a que no hay etiquetas públicas de verdad sobre el terreno en el conjunto de pruebas de Pascal VOC 2010, utilizamos los datos de entrenamiento y validación para todos los experimentos. Dividimos aleatoriamente las imágenes en tres grupos: 40% grupo de entrenamiento, 15% grupo de validación y 45% grupo de prueba. La precisión de la segmentación se midió mediante métodos estándar de medición de COV [3].
Al aprender potenciales unarios en el conjunto de entrenamiento, la precisión de clasificación promedio es del 27,6%. Los parámetros potenciales de Potts en el modelo CRF totalmente conectado se estudiaron en el conjunto de validación. La precisión de clasificación promedio del modelo potencial totalmente conectado de Potts es del 29,1%. La función de compatibilidad de etiquetas aprendida en el conjunto de validación mejora aún más la precisión de la clasificación, alcanzando el 30,2 %. En comparación, grid-CRF alcanzó el 28,3%. El tiempo de entrenamiento es de 2,5 horas y el tiempo de inferencia es de 0,5 segundos. Los resultados cualitativos se muestran en la Figura 5.
Conexión remota.
Probamos el valor de las conexiones de larga distancia en el modelo variando los rangos espaciales y de color θ α y θ β del núcleo de apariencia y analizando la precisión de la clasificación. En este experimento, w(1) se mantiene constante y w(2) se establece en 0. Los resultados se muestran en la Figura 6. A medida que aumenta la distancia, la precisión mejora gradualmente, alcanzando un pico cuando la desviación estándar espacial θα=61 píxeles y la desviación estándar de color θβ=11. Bajo esta configuración, más del 50% de la energía potencial por pares en el modelo se asigna a bordes con longitudes de 35 píxeles o más. Sin embargo, las conexiones remotas también pueden difundir información engañosa, como se muestra en la Figura 7.
Discutirlo.
Se propone un algoritmo de inferencia aproximada eficiente para el modelo de campo aleatorio condicional totalmente conectado. Los resultados muestran que una conectividad densa a nivel de píxeles puede mejorar significativamente la precisión de la clasificación a nivel de píxeles. Nuestra implementación de un solo subproceso puede procesar imágenes de referencia en segundos y el algoritmo se puede paralelizar para mejorar aún más el rendimiento.