¿Cuál es la historia del desarrollo del reconocimiento facial?
Para presentar mejor la historia y el estado actual de la investigación del reconocimiento facial, este artículo divide la historia de la investigación de AFR en tres etapas según el contenido de la investigación, los métodos técnicos y otras características, como se muestra en la Tabla 1.
Esta tabla resume la historia del desarrollo de la investigación en reconocimiento facial, los trabajos de investigación representativos en cada etapa histórica y sus características técnicas.
La siguiente es una breve introducción al progreso de la investigación en tres etapas:
La primera etapa (1964 ~1990)
En esta etapa, el reconocimiento facial es generalmente solo se usa como método general Para estudiar problemas de reconocimiento de patrones, la principal solución técnica adoptada es un método basado en rasgos geométricos faciales.
Esto se refleja principalmente en la investigación popular sobre los contornos laterales. La gente ha investigado mucho sobre la extracción y el análisis de las características estructurales de las curvas del contorno facial.
Los investigadores han utilizado redes neuronales artificiales para el reconocimiento facial.
Además de Bledsoe, hay otros investigadores que han participado anteriormente en investigaciones sobre AFR, como Goldstein, Harmon y Kinderwulf.
Kane Takeo completó su primera tesis doctoral sobre AFR en la Universidad de Kioto en 1973. Hasta ahora, como profesor del Instituto de Robótica de la Universidad Carnegie Mellon (CMU), sigue siendo una de las figuras activas en el campo del reconocimiento facial.
Su grupo de investigación también es una fuerza importante en el campo del reconocimiento facial.
En general, esta etapa es la etapa inicial de la investigación sobre reconocimiento facial. No hay muchos resultados muy importantes y básicamente no se ha aplicado en la práctica.
La segunda fase (1991~1997)
Aunque esta fase es relativamente corta, es la primera fase de la investigación del reconocimiento facial y se puede decir que fue fructífera: no solo se El ejército de EE. UU. también ha probado un lote de algoritmos de reconocimiento facial representativos, el famoso algoritmo de reconocimiento facial FERET, y han surgido varios sistemas de reconocimiento facial operados comercialmente, como el más famoso sistema FaceIt de Visionics (ahora Identix).
El método "eigenface" propuesto por Turk y Pentland del Laboratorio de Medios del Instituto Tecnológico de Massachusetts (MIT) es sin duda el método de reconocimiento facial más famoso durante este período.
Muchas tecnologías de reconocimiento facial posteriores están más o menos relacionadas con las caras propias. Ahora las caras propias se han convertido en el algoritmo de referencia para las pruebas de rendimiento del reconocimiento facial junto con los métodos relacionados con la normalización.
Otro trabajo importante durante este período fue el experimento comparativo realizado por Brunelli y Poggio del Laboratorio de Inteligencia Artificial del MIT alrededor de 1992. Compararon el rendimiento de reconocimiento de los métodos basados en características estructurales y los métodos basados en coincidencias de plantillas y llegaron a una conclusión clara: los métodos basados en coincidencias de plantillas son mejores que los métodos basados en características.
Esta conclusión rectora, combinada con la característica facial * * *, básicamente detuvo la investigación sobre métodos de reconocimiento facial basados en características estructurales y, en gran medida, promovió el desarrollo de métodos de reconocimiento facial basados en características estructurales. El desarrollo de métodos de reconocimiento facial basados en el modelado subespacial lineal de la apariencia y la tecnología de reconocimiento de patrones estadísticos se ha convertido gradualmente en la tecnología de reconocimiento facial principal.
El método de reconocimiento facial Fisherface propuesto por Belhumeur es otro logro importante durante este período.
En primer lugar, se utiliza el análisis de componentes principales para reducir la dimensionalidad de las características aparentes de la imagen.
Sobre esta base, el método de análisis discriminante lineal (LDA) se utiliza para transformar los componentes principales después de la reducción de dimensionalidad para obtener "la mayor divergencia interclase posible y la divergencia intraclase más pequeña posible" ".
En la actualidad, este método sigue siendo uno de los principales métodos de reconocimiento facial y ha producido muchas variantes diferentes, como el método de espacio cero, el modelo discriminante subespacial, el modelo discriminante mejorado, el método discriminante LDA directo y algunos métodos recientes. Estrategias mejoradas basadas en el aprendizaje del kernel.
Por otro lado, Moghaddam del MIT propuso un método de reconocimiento facial basado en la estimación de probabilidad bayesiana en espacio dual.
Este método utiliza el "método de diferencia" para convertir el cálculo de similitud de dos pares de imágenes faciales en un problema de clasificación de dos clases (diferencia intraclase y diferencia entre clases). Tanto los datos de diferencias intraclases como entre clases deben reducirse dimensionalmente mediante tecnología de análisis de componentes principales, y se debe calcular la densidad de probabilidad condicional de los dos tipos de datos. Finalmente, el reconocimiento facial se realiza mediante la toma de decisiones bayesiana (máxima probabilidad o máxima probabilidad posterior).
En esta etapa también se propuso la coincidencia de gráficos elásticos (EGM), otro método importante en el reconocimiento facial.
La idea básica es utilizar gráficos de atributos para describir caras: los vértices del gráfico de atributos representan los puntos característicos clave de la cara, y sus atributos son las características locales multirresolución y multidireccionales en el Puntos característicos correspondientes: la característica Transformada de Gabor [12], llamada atributo de Jet Edge, es la relación geométrica entre diferentes puntos característicos.
Para cualquier imagen de cara de entrada, la coincidencia de gráficos elásticos utiliza una estrategia de búsqueda optimizada para localizar algunos puntos de características de cara clave predefinidos, mientras extrae sus características Jet para obtener el mapa de atributos de la imagen de entrada.
Finalmente, el proceso de reconocimiento se completa calculando la similitud con el mapa de atributos de la cara conocida.
La ventaja de este método es que no sólo conserva las características estructurales globales de la cara, sino que también modela las características locales clave de la cara.
Recientemente, ha habido algunas extensiones de este enfoque.
La tecnología de análisis de características locales fue propuesta por Atick et al. de la Universidad Rockefeller.
Esencialmente, LFA es un método de descripción de objetos de baja dimensión basado en estadísticas. En comparación con PCA, que solo puede extraer características globales pero no puede mantener la topología local, LFA puede extraer características locales basadas en la descripción de PCA global mientras mantiene información de topología global, por lo que tiene mejores capacidades de descripción y discriminación.
La tecnología LFA se ha comercializado como el famoso sistema FaceIt, por lo que no se han publicado nuevos avances académicos en el período posterior.
El proyecto FERET, financiado por la Oficina del Programa de Desarrollo de Tecnología Antinarcóticos del Departamento de Defensa de Estados Unidos, es sin duda un evento crucial en esta etapa.
El objetivo del proyecto FERET es desarrollar tecnología AFR que pueda ser utilizada por agencias de seguridad, inteligencia y aplicación de la ley.
El proyecto incluye tres partes: financiar múltiples investigaciones sobre reconocimiento facial, crear una base de datos de imágenes faciales FERET y organizar la evaluación del desempeño del reconocimiento facial FERET.
El proyecto organizó tres evaluaciones de reconocimiento facial en 1994, 1995 y 1996. Varios de los algoritmos de reconocimiento facial más famosos participaron en la prueba, lo que promovió en gran medida la mejora y la practicidad de estos algoritmos.
Otra contribución importante de esta prueba es proporcionar una dirección de desarrollo adicional del reconocimiento facial: el reconocimiento facial en condiciones de adquisición no ideales, como la iluminación y la postura, se ha convertido gradualmente en una dirección de investigación popular.
Los modelos flexibles, incluidos Active Shape Model (ASM) y Active Appearance Model (AAM), fueron contribuciones importantes al modelado facial durante este período.
ASM/AAM describe la cara como dos partes independientes, forma 2D y textura, que se modelan usando métodos estadísticos (PCA) respectivamente, y luego usan PCA para integrarlas y realizar estadísticas en el modelado de la cara.
El modelo flexible tiene buenas capacidades de síntesis de rostros y la tecnología de análisis de imágenes basada en síntesis se puede utilizar para la extracción de características y el modelado de imágenes de rostros.
Los modelos flexibles se han utilizado ampliamente en la alineación y el reconocimiento de rostros, y han surgido muchos modelos mejorados.
En general, la tecnología de reconocimiento facial se está desarrollando muy rápidamente en esta etapa y el algoritmo propuesto ha logrado muy buen rendimiento en términos de condiciones ideales de adquisición de imágenes, coordinación de objetos y bases de datos de rostros frontales pequeños y medianos. Como resultado, han surgido varias empresas comerciales de reconocimiento facial conocidas.
Desde una perspectiva técnica, el análisis discriminante subespacial lineal, los modelos estadísticos de apariencia y los métodos estadísticos de reconocimiento de patrones de imágenes faciales 2D son las tecnologías principales en esta etapa.
La tercera fase (1998 ~ presente)
La evaluación del algoritmo de reconocimiento facial FERET'96 muestra que la tecnología de reconocimiento facial convencional tiene problemas causados por condiciones de adquisición no ideales u objetos descoordinados. No es resistente a los cambios de iluminación y pose.
Por lo tanto, los problemas de iluminación y postura se han convertido gradualmente en un tema de investigación.
Al mismo tiempo, también se ha seguido desarrollando el sistema comercial de reconocimiento facial.
Por lo tanto, basándose en la prueba FERET, el ejército estadounidense organizó dos evaluaciones de sistemas comerciales en 2000 y 2002.
Gehiades et al. propusieron un método de reconocimiento facial de múltiples poses en condiciones de iluminación múltiple basado en el modelo de cono de luz, que fue uno de los logros importantes de este período. Llegaron a una conclusión importante: todas las imágenes de la misma cara, desde el mismo ángulo de visión y bajo diferentes condiciones de iluminación, forman en el espacio de la imagen un cono convexo, es decir, el cono de iluminación.
Para calcular el cono de iluminación a partir de un pequeño número de imágenes de rostros con condiciones de iluminación desconocidas, también ampliaron el método fotométrico tradicional de visión estereoscópica, que puede basarse en siete imágenes con las mismas condiciones de iluminación bajo las mismas condiciones de iluminación. Suponiendo que las imágenes desconocidas del modelo de Lambert restablezcan la forma tridimensional del objeto y el coeficiente de reflexión de la superficie de los puntos de la superficie, la superficie convexa y la fuente de luz lejana (la visión estéreo fotométrica tradicional puede restaurar la dirección vectorial normal de la superficie del objeto). tres imágenes dadas de condiciones de iluminación conocidas), lo cual puede ser conveniente. La imagen de cualquier condición de iluminación bajo el ángulo de visión se sintetiza automáticamente para completar el cálculo del cono de iluminación.
La identificación se logra calculando la distancia desde la imagen de entrada a cada cono de iluminación.
Durante este período, la teoría del aprendizaje estadístico representada por máquinas de vectores de soporte también se aplicó al reconocimiento y confirmación de rostros.
La máquina de vectores de soporte es un clasificador de dos clases, mientras que el reconocimiento facial es un problema de múltiples clases.
Por lo general, existen tres estrategias para resolver este problema, a saber: método de diferencia intraclase/diferencia entre clases, método uno a muchos y método uno a uno.
El método de análisis y reconocimiento de imágenes faciales basado en el modelo de deformación tridimensional propuesto por Brands y Vetter es un trabajo pionero en esta etapa.
Este método es esencialmente una técnica de análisis integral. Su principal contribución radica en el modelo de deformación estadística basado en formas y texturas tridimensionales (similar a 2D AAM). Al mismo tiempo, utiliza métodos de simulación gráfica para modelar los parámetros del modelo de iluminación y proyección en perspectiva en el proceso de adquisición de imágenes. que los atributos internos del rostro, como la forma y la textura del rostro, estén completamente separados de los parámetros externos, como la configuración de la cámara y la iluminación, lo que favorece más el análisis y el reconocimiento de las imágenes del rostro.
Los experimentos de Blanz muestran que este método logra una alta tasa de reconocimiento en la base de datos de rostros CMU-Pai (multipose, iluminación y expresión) y en la base de datos de rostros multipose FERET, lo que demuestra la eficacia de este método sexual.
En la Conferencia Internacional sobre Visión por Computador (ICCV) de 2001, los investigadores Viola y Jones del Instituto de Investigación Compaq demostraron su sistema de detección de rostros en tiempo real basado en características rectangulares simples y AdaBoost, detectando la velocidad de un rostro casi frontal en Formato CIF Alcanzando más de 15 fotogramas por segundo.
Las principales contribuciones de este método incluyen: 1) usar características rectangulares simples que se pueden calcular rápidamente como características de imágenes faciales; 2) combinar una gran cantidad de clasificadores débiles basados en AdaBoost para formar un método de aprendizaje de clasificadores sólido; 3) Utilice tecnología en cascada para mejorar la velocidad de detección.
Actualmente, esta estrategia de aprendizaje facial/no facial ha sido capaz de lograr detección y seguimiento de rostros en múltiples poses en tiempo casi real.
Esto proporciona una buena base para el reconocimiento facial de fondo.
Shashua propuso una tecnología de representación y reconocimiento de imágenes faciales basada en un mapa empresarial [13] en 2001.
Esta tecnología es una tecnología de renderizado basada en el aprendizaje de conjuntos de imágenes de objetos específicos. Puede sintetizar imágenes sintéticas de cualquier imagen facial de entrada en diversas condiciones de iluminación basándose en una pequeña cantidad de imágenes con diferentes condiciones de iluminación en el entrenamiento. colocar.
Basándose en esto, Shasuha et al. también dieron la definición de imagen de firma facial con iluminación constante, que se puede utilizar para el reconocimiento facial con iluminación constante. Los experimentos han demostrado su eficacia.
Basri y Jacobs utilizaron armónicos esféricos para representar la iluminación y utilizaron un proceso de convolución para describir la reflexión de Lambert. Demostraron analíticamente una conclusión importante: el conjunto de todas las funciones de reflexión de Lambert obtenidas de cualquier fuente de luz distante constituye una subunidad lineal. . espacio.
Esto significa que el conjunto de imágenes de un objeto de superficie lambertiana convexa bajo diversas condiciones de iluminación puede aproximarse mediante un subespacio lineal de baja dimensión.
Esto no solo es consistente con los resultados experimentales empíricos de métodos de modelado estadístico de iluminación anteriores, sino que también promueve teóricamente el desarrollo de métodos de reconocimiento de objetivos subespaciales lineales.
También permite utilizar métodos de optimización convexa para forzar que la función de iluminación no sea negativa, lo que proporciona una idea importante para resolver problemas de iluminación.
Tras el proyecto FERET surgieron varios sistemas comerciales de reconocimiento facial.
Los departamentos pertinentes del Departamento de Defensa de EE. UU. han organizado más evaluaciones FRVT sobre sistemas comerciales de reconocimiento facial y hasta ahora han realizado dos evaluaciones: FRVT2000 y FRVT2002.
Por un lado, estas dos pruebas comparan el rendimiento de sistemas de reconocimiento facial conocidos. Por ejemplo, la prueba FRVT2002 muestra que Cognitec, Identix y Eyematic están muy por delante de otros sistemas, pero no hay mucha diferencia entre ellos.
Por otro lado, el estado de desarrollo de la tecnología de reconocimiento facial se resume de manera integral: en condiciones ideales (foto de visa frontal), la tasa de reconocimiento facial preferida más alta es 73, y la tasa de error de la verificación facial es igual a 73. (EER[14]) es 37437 personas y 1589 imágenes.
Otra contribución importante de la prueba FRVT es que señala algunos problemas que deben resolverse urgentemente en los algoritmos de reconocimiento facial actuales.
Por ejemplo, la prueba de FRVT2002 muestra que el rendimiento de los sistemas comerciales de reconocimiento facial actuales sigue siendo muy sensible a los cambios de iluminación interior y exterior, la postura, el lapso de tiempo y otros problemas de reconocimiento efectivo en grandes superficies. escalar bases de datos de rostros También es muy serio. Estas cuestiones aún requieren mayores esfuerzos.
En general, en condiciones de imagen no ideales (especialmente iluminación y postura) y cuando los objetos no están coordinados, el problema del reconocimiento facial en bases de datos faciales a gran escala se ha convertido gradualmente en un tema candente.
Métodos de modelado no lineal, teoría del aprendizaje estadístico, tecnología de aprendizaje basada en Boosting [15], métodos de reconocimiento y modelado de rostros basados en modelos 3D, etc. Poco a poco se ha convertido en una tendencia de desarrollo tecnológico.
En resumen, el reconocimiento facial es un tema de investigación que tiene valor de investigación científica y amplias perspectivas de aplicación.
Un gran número de investigadores internacionales han logrado resultados de investigación fructíferos durante décadas y la tecnología de reconocimiento facial automático se ha aplicado con éxito bajo ciertas restricciones.
Estos resultados profundizan nuestra comprensión del problema del reconocimiento facial automático, especialmente sus desafíos.
Aunque los sistemas automáticos de reconocimiento facial existentes pueden haber superado a los humanos en comparación con la velocidad e incluso en la precisión de datos faciales masivos, para problemas generales de reconocimiento facial en condiciones cambiantes complejas, el reconocimiento automático de rostros La robustez y precisión de los sistemas de reconocimiento están lejos inferiores a los humanos.
Se desconoce la razón subyacente de esta brecha, ya que nuestra comprensión del sistema visual humano es aún superficial.
Sin embargo, desde la perspectiva del reconocimiento de patrones y la visión por computadora, esto puede no solo significar que no hemos encontrado sensores efectivos para muestrear razonablemente la información facial (dadas las diferencias entre las cámaras monoculares y los sistemas binoculares humanos), sino que también significa que estamos utilizando un enfoque inadecuado para el modelado facial (la representación interna del rostro), y también puede significar que no somos conscientes de la extrema precisión que puede lograr la tecnología de reconocimiento facial automático.
Sin embargo, el sueño de muchos investigadores en este campo es dotar a los dispositivos informáticos de la capacidad de reconocer rostros similares a los humanos.
Creo que a medida que la investigación se profundiza, nuestra comprensión debería poder acercarse a las respuestas correctas a estas preguntas.