Colección de citas famosas - Frases elegantes - Mi comprensión de la segmentación de imágenes

Mi comprensión de la segmentación de imágenes

La segmentación de imágenes es lo que hice en mi segundo año de 2019. Este artículo pretende resumir.

La imagen se divide en niveles de píxeles semánticos y los objetos segmentados se clasifican además por instancias.

Calcule uno o más umbrales de escala de grises en función de las características de escala de grises de la imagen y compare el valor de escala de grises de cada píxel de la imagen con el umbral. Finalmente, los píxeles se clasifican en categorías apropiadas según los resultados de la comparación.

Determinar una función de criterio para resolver el umbral de grises óptimo. El método de umbral es particularmente adecuado para gráficos donde el objetivo y el fondo ocupan diferentes rangos de escala de grises.

Vale la pena mencionar que este método también se puede utilizar para la detección de puntos característicos.

Busca la zona directamente. Hay dos formas básicas: una es el crecimiento de la región, comenzando desde un solo píxel y fusionándose gradualmente para formar el área de segmentación requerida; la otra es comenzar desde la perspectiva global y cortar gradualmente en las áreas de subdivisión requeridas;

Los algoritmos de segmentación de imágenes basados ​​en la detección de bordes intentan resolver el problema de segmentación detectando bordes que contienen diferentes regiones. Se puede decir que es uno de los métodos más antiguos y estudiados. Normalmente, el valor de gris de los píxeles en los límites de diferentes regiones cambia drásticamente. Si la imagen se transforma del dominio espacial al dominio de la frecuencia mediante la transformada de Fourier, los bordes corresponden a las partes de alta frecuencia, que es un algoritmo de detección de bordes muy simple.

Convolución tradicional

Convolución convencional El gradiente de solución residual desaparece y la red se vuelve más profunda.

Red neuronal eficiente

ResNet-38

Red residual de resolución completa (FRRN)

Adapuni

Desarrollado de la detección de objetivos (R-CNN, R-CNN rápido)

Basado en la estructura rápida de R-CNN, se agrega una rama de predicción de máscara y se mejora la agrupación de ROI, propuesta ROI Align.

La función de evaluación solo puntúa las casillas candidatas para la detección de objetivos, en lugar de dividir la plantilla.

(1) Mejora del modelo ReSeg FCN

Desventajas de FCN: no considera dependencias de contexto local o global, lo cual es muy útil en la segmentación semántica. Por lo tanto, en ReSeg, los autores utilizan RNN para recuperar información contextual como parte de la base para la segmentación.

Las redes neuronales convolucionales perderán algunos detalles durante el muestreo, obteniendo así más valores de características. Sin embargo, este proceso es irreversible y en ocasiones conduce a problemas como baja resolución de imagen y pérdida de detalles durante las operaciones de posproducción. Por lo tanto, no podemos complementar cierta información faltante hasta cierto punto mediante un muestreo ascendente para obtener límites de segmentación más precisos.

Después de la convolución, se realiza un muestreo ascendente para obtener el mapa de fragmentos.

Ventajas:

FCN clasifica imágenes a nivel de píxeles, resolviendo así el problema de segmentación de imágenes a nivel semántico.

FCN puede aceptar imágenes de entrada de cualquier tamaño y puede conservar la información espacial en la imagen de entrada original.

Desventajas:

Debido al aumento de muestreo, los resultados obtenidos son borrosos y suaves, e insensibles a los detalles de la imagen;

Cada píxel individualmente La clasificación no se completa considera la relación entre píxeles y carece de consistencia espacial.

Recuperar resolución reducida en redes neuronales convolucionales profundas para obtener más información contextual.

DeepLab es un método que combina redes neuronales convolucionales profundas y modelos gráficos probabilísticos y se aplica a tareas de segmentación semántica con el fin de clasificar píxel por píxel. Su avance se refleja en la combinación de DenseCRF (modelo gráfico probabilístico) y DCNN. Trate cada píxel como un nodo CRF y utilice dependencias de largo alcance e inferencia CRF para optimizar directamente la función de pérdida de DCNN.

En el campo de la segmentación de imágenes, una operación bien conocida de FCN es suavizar primero y luego rellenar, es decir, primero enrollar las líneas y luego hacerlas converger, para aumentar el campo receptivo y al mismo tiempo reducir Es probable que se pierda algo de información en el proceso (convolución) y luego aumente el tamaño (muestreo), por lo que hay margen de mejora aquí.

DeepLab propuso la convolución de agujeros para resolver este problema.

(1)

Pérdida de entropía cruzada

La pérdida de enfoque resuelve el desequilibrio de muestras difíciles y difíciles

②Segmentación de imágenes médicas

Pérdida de dados (esta función de pérdida tiene un trasfondo que optimiza directamente las métricas de rendimiento y toca otro de mis temas, la optimización no convexa)

Pagaré (a menudo utilizado como métrica de evaluación)

Sobre la base de las pérdidas básicas anteriores, existen varias mejoras.

Debido a que los píxeles adyacentes son demasiado similares a la información de la imagen en el campo receptivo correspondiente, si los píxeles adyacentes pertenecen al interior del área de segmentación deseada, esta "similitud" es beneficiosa, pero si los píxeles adyacentes están exactamente en los límites del área de segmentación deseada, esta "similitud" es perjudicial.

Las características contextuales son comunes. De hecho, el contexto probablemente pueda entenderse como que cada píxel de la imagen no puede existir de forma aislada, un píxel debe tener una determinada relación con los píxeles que lo rodean. Una gran cantidad de píxeles están conectados entre sí para producir varios objetos en la imagen, por lo que las características contextuales se refieren a alguna relación entre un píxel y los píxeles circundantes.

1. Agregue pérdidas adicionales a los límites del segmento generados por la red, o deje que la red modele y aprenda las características de los límites y las características dentro de la región por separado. La idea básica es que la red realice dos tareas simultáneamente: segmentación y detección de bordes. Además, también es simple y efectivo aumentar la resolución de entrada de la imagen de entrada y la resolución del mapa de características de la capa intermedia.

2. Utilice la pérdida o ponderación dinámica del muestreo en el espacio bidimensional de la imagen para resolver el problema del número impar de píxeles con diferente semántica en la misma imagen y diferentes dificultades de aprendizaje.

3. Utilice el aprendizaje semisupervisado o débilmente supervisado para reducir los costosos problemas de etiquetado. Utilice varias muestras ruidosas o funciones de etiquetas para construir muestras virtuales limpias o funciones de etiquetas para reducir el ruido de las etiquetas.

4. Utilice un mecanismo de modelado de contexto razonable para ayudar a la red a adivinar la información semántica de la parte ocluida.

5. Establecer módulos de pérdida o interacción de características entre diferentes imágenes en la red.