Colección de citas famosas - Frases elegantes - Mi comprensión de la segmentación de imágenes

Mi comprensión de la segmentación de imágenes

La segmentación de imágenes es algo que hice en mi segundo año de 2019. Este artículo sirve para resumir.

La imagen se divide en niveles de píxeles semánticos y los objetos segmentados se clasifican mediante ejemplos.

Calcule uno o más umbrales de escala de grises en función de las características de escala de grises de la imagen y compare el valor de escala de grises de cada píxel de la imagen con el umbral. Finalmente, los píxeles se clasifican en categorías apropiadas según los resultados de la comparación.

Determinar la función criterio para resolver el umbral de grises óptimo. El método de umbral es particularmente adecuado para gráficos donde el objetivo y el fondo ocupan diferentes rangos de escala de grises.

Vale la pena mencionar que este método también se puede utilizar para la detección de puntos característicos.

Busca la zona directamente. Hay dos formas básicas: una es el crecimiento de la región, comenzando desde un solo píxel y fusionándose gradualmente para formar el área de segmentación requerida; la otra es comenzar desde la situación general y cortar gradualmente el área de subdivisión requerida;

Los algoritmos de segmentación de imágenes basados en la detección de bordes intentan resolver el problema de segmentación detectando bordes que contienen diferentes regiones. Se puede decir que es uno de los métodos más antiguos y más investigados que se le ocurren a la gente. Normalmente, el valor de gris de los píxeles en los límites de diferentes regiones cambia drásticamente. Si se utiliza la transformada de Fourier para transformar la imagen del dominio espacial al dominio de frecuencia, los bordes corresponden a las partes de alta frecuencia. Este es un algoritmo de detección de bordes muy simple.

Convolución convencional

Convolución convencional + el gradiente de solución restante desaparece y la red se vuelve más profunda.

Red neuronal eficiente

ResNet-38

Red residual de resolución completa (FRRN)

Adapuni

Desarrollado de la detección de objetivos (R-CNN, R-CNN rápido)

Basado en la estructura rápida de R-CNN, se agrega una rama de predicción de máscara y se mejora el grupo de regiones de interés. .

La función de evaluación solo puntúa las casillas candidatas utilizadas para la detección de objetivos sin dividir la plantilla.

(1) Mejora del modelo ReSeg FCN

Desventajas de FCN: no considera dependencias de contexto local o global, lo cual es muy útil en la segmentación semántica. Por lo tanto, en ReSeg, los autores utilizan RNN para recuperar información contextual como parte de la base para la segmentación.

Las redes neuronales convolucionales perderán algunos detalles durante el muestreo, obteniendo así más valores de características. Sin embargo, este proceso es irreversible y en ocasiones conduce a problemas como baja resolución de imagen y pérdida de detalles durante las operaciones de posproducción. Por lo tanto, no podemos lograr cierto grado de información faltante mediante el muestreo ascendente para obtener límites de segmentación más precisos.

Después de la convolución, se realiza un muestreo ascendente para obtener el mapa de fragmentos.

Ventajas:

FCN clasifica imágenes a nivel de píxeles, resolviendo así el problema de segmentación de imágenes a nivel semántico.

FCN puede aceptar imágenes de entrada de cualquier tamaño y puede preservar la información espacial en la imagen de entrada original.

Desventajas:

Debido al muestreo superior, los resultados obtenidos son borrosos y suaves, e insensibles a los detalles de la imagen;

Individualizar cada píxel La clasificación no lo hace completamente considera la relación entre píxeles y carece de consistencia espacial.

Recuperar resolución reducida en redes neuronales convolucionales profundas para obtener más información contextual.

DeepLab es un método que combina redes neuronales convolucionales profundas y modelos gráficos probabilísticos. Se aplica a la tarea de segmentación semántica con el fin de clasificar píxel por píxel. Su avance se refleja en la combinación de DenseCRF (modelo gráfico probabilístico) y DCNN. Trate cada píxel como un nodo CRF y utilice dependencias de largo alcance e inferencia CRF para optimizar directamente la función de pérdida de DCNN.

En el campo de la segmentación de imágenes, una operación bien conocida de FCN es suavizar primero y luego rellenar, es decir, primero enrollar las líneas y luego agruparlas, aumentando así el campo receptivo y reduciendo el tamaño de la imagen. , pero al mismo tiempo reducir el tamaño de la imagen inevitablemente se perderá parte de la información en el proceso de (convolución) aumentar el tamaño (muestreo ascendente), por lo que hay margen de mejora aquí.

DeepLab propuso la convolución de agujeros para resolver este problema.

Segmentación de imágenes tradicional

Pérdida de entropía cruzada

La pérdida focal resuelve el desequilibrio de muestras difíciles y difíciles

(2) Segmentación de imágenes de medicina

Pérdida de dados (esta función de pérdida tiene un trasfondo, optimiza directamente los indicadores de rendimiento e involucra otro tema mío, la optimización no convexa)

Pagaré (comúnmente utilizado como indicador de evaluación)

Sobre la base de las pérdidas básicas anteriores, existen varias mejoras.

Debido a que los píxeles adyacentes son demasiado similares a la información de la imagen en el campo receptivo correspondiente, si los píxeles adyacentes pertenecen al interior del área de segmentación deseada, esta "similitud" es beneficiosa, pero si los píxeles adyacentes Esta "similitud" es perjudicial en los límites del área de segmentación deseada.

Las características contextuales son comunes. De hecho, el contexto entiende aproximadamente que cada píxel de la imagen no puede existir de forma aislada y que un píxel debe tener una cierta relación con los píxeles circundantes. Una gran cantidad de píxeles están conectados entre sí para producir varios objetos en la imagen, por lo que las características contextuales se refieren a alguna relación entre un píxel y los píxeles circundantes.

1. Agregue pérdida adicional a la salida del límite del segmento de la red, o deje que la red modele y aprenda las características del límite y las características dentro de la región, respectivamente. La idea esencial es permitir que la red haga dos trabajos al mismo tiempo: segmentación y detección de bordes. Además, también es simple y efectivo aumentar la resolución de entrada de la imagen de entrada y la resolución del mapa de características de la capa intermedia.

2. Utilice la pérdida del espacio de la imagen bidimensional o la ponderación dinámica del muestreo para resolver el problema de números desiguales de píxeles con diferente semántica en la misma imagen y diferentes dificultades de aprendizaje.

3. Utilice el aprendizaje semisupervisado o débilmente supervisado para reducir los costosos problemas de etiquetado. Utilice características de múltiples muestras o etiquetas ruidosas para construir muestras virtuales limpias o características de etiquetas para reducir el ruido de las etiquetas.

4. Utilice un mecanismo de modelado de contexto razonable para ayudar a la red a adivinar la información semántica de la parte ocluida.

5. Establecer módulos de pérdida o interacción de características entre diferentes imágenes en la red.

上篇: ¿Lemas inmobiliarios en los periódicos? 下篇: Cómo realizar una reunión matutina en el sector inmobiliario