¿Cuál es la historia del desarrollo del reconocimiento facial?
El reconocimiento facial es un tema candente que ha sido ampliamente estudiado. Han surgido una gran cantidad de trabajos de investigación uno tras otro y, hasta cierto punto, se sospecha que se ha convertido en un "desastre". Para presentar mejor la historia y la situación actual de la investigación del reconocimiento facial, este artículo divide aproximadamente la historia de la investigación de AFR en tres etapas de tiempo según las características del contenido de la investigación, los métodos técnicos y otros aspectos, como se muestra en la Tabla 1. Esta tabla resume la breve historia del desarrollo de la investigación del reconocimiento facial, su trabajo de investigación representativo en cada etapa histórica y sus características técnicas. La siguiente es una breve introducción al progreso de la investigación en las tres etapas:
La primera etapa (1964~1990)
En esta etapa, el reconocimiento facial generalmente solo se usa como método general. Para estudiar el problema de reconocimiento de patrones, la principal solución técnica adoptada es el método basado en las características de la estructura geométrica de la cara (Geometricfeature based). Esto se refleja principalmente en la investigación popular sobre la silueta (Perfil). La gente ha realizado muchas investigaciones sobre la extracción y análisis de las características estructurales de las curvas de la silueta facial. Los investigadores también han utilizado redes neuronales artificiales en problemas de reconocimiento facial. Además de Bledsoe, los investigadores que participaron anteriormente en la investigación de AFR incluyen a Goldstein, Harmon, Kanade Takeo, etc. Takeo Kanede completó su primera tesis doctoral sobre AFR en la Universidad de Kioto en 1973. Hasta ahora, como profesor en el Instituto de Investigación en Robótica de la Universidad Carnegie Mellon (CMU), sigue activo en el campo del reconocimiento facial. Su grupo de investigación también es una fuerza importante en el campo del reconocimiento facial. En términos generales, esta etapa es la etapa inicial de la investigación del reconocimiento facial. No hay muchos resultados muy importantes y básicamente no hay aplicaciones prácticas.
La segunda fase (1991~1997)
Aunque esta fase tiene una duración relativamente corta, es el clímax de la investigación sobre el reconocimiento facial y se puede decir que es fructífera: no solo se Hay varios algoritmos de reconocimiento facial representativos. El ejército de EE. UU. también organizó la famosa prueba del algoritmo de reconocimiento facial FERET, y han surgido varios sistemas de reconocimiento facial operados comercialmente, como el sistema FaceIt más famoso de Visionics (ahora Identix).
El método "eigenface" propuesto por Turk y Pentland del MIT Media Laboratory es sin duda el método de reconocimiento facial más famoso de este período. Muchas tecnologías de reconocimiento facial posteriores están más o menos relacionadas con las caras propias. Ahora las caras propias se han convertido en el algoritmo de referencia para las pruebas de rendimiento del reconocimiento facial junto con el método de correlación normalizada.
Otro trabajo importante durante este período fue un experimento comparativo realizado por Brunelli y Poggio del Laboratorio de Inteligencia Artificial del MIT alrededor de 1992. Compararon el rendimiento de reconocimiento del método basado en características estructurales y el método basado en coincidencia de plantillas. Se da y se da una conclusión relativamente segura: el método de coincidencia de plantillas es mejor que el método basado en características. Esta conclusión rectora tiene el mismo efecto que las caras propias: básicamente suspende la investigación sobre métodos de reconocimiento facial basados puramente en características estructurales y, en gran medida, promueve el subespacio lineal basado en la apariencia. El desarrollo de métodos de modelado y reconocimiento facial basados en tecnología de reconocimiento de patrones estadísticos. Se ha convertido gradualmente en la tecnología de reconocimiento facial principal.
El método de reconocimiento facial Fisherface propuesto por Belhumeur et al. es otro logro importante durante este período. Este método utiliza primero el análisis de componentes principales (PCA, también conocido como eigenface) para reducir la dimensionalidad de las características aparentes de la imagen. Sobre esta base, el método de análisis discriminante lineal (LDA) se utiliza para transformar los componentes principales después de la reducción de dimensionalidad para obtener "la mayor divergencia entre clases posible y la divergencia intraclase más pequeña posible".
Este método sigue siendo uno de los métodos principales de reconocimiento facial y ha producido muchas variantes diferentes, como el método de espacio nulo, el modelo discriminante subespacial, el modelo discriminante mejorado, el método discriminante LDA directo y algunas estrategias mejoradas recientes basadas en el aprendizaje del núcleo.
Moghaddam del MIT propuso un método de reconocimiento facial basado en la estimación de probabilidad bayesiana basada en subespacios duales basados en caras propias. Este método utiliza el "método de diferencia" para convertir el problema de cálculo de similitud de dos pares de imágenes faciales en un problema de clasificación de dos clases (diferencia intraclase y diferencia entre clases). Tanto los datos de diferencia intraclase como los de diferencia entre clases. La tecnología de análisis de componentes principales (PCA) de primer paso realiza una reducción de dimensionalidad, calcula la densidad de probabilidad condicional de clase de dos categorías y finalmente realiza el reconocimiento facial mediante el método de toma de decisiones bayesiana (máxima probabilidad o máxima probabilidad posterior).
En esta etapa también se propuso otro método importante en el reconocimiento facial: Elastic Graph Matching (EGM). La idea básica es utilizar un gráfico de atributos para describir un rostro humano: los vértices del gráfico de atributos representan puntos característicos clave del rostro, y sus atributos son características locales multidireccionales y de resolución múltiple en los puntos característicos correspondientes: transformada de Gabor. [12] características, que se denominan Jet; los atributos de borde son las relaciones geométricas entre diferentes puntos de características. Para cualquier imagen facial de entrada, la coincidencia de gráficos elásticos utiliza una estrategia de búsqueda optimizada para localizar una serie de puntos de características faciales clave predefinidos y, al mismo tiempo, extrae sus características Jet para obtener el mapa de atributos de la imagen de entrada. Finalmente, el proceso de reconocimiento se completa calculando la similitud con el mapa de atributos de la cara conocida. La ventaja de este método es que no sólo conserva las características estructurales globales del rostro, sino que también modela las características locales clave del rostro. Recientemente también han aparecido varias extensiones de este enfoque.
La tecnología de análisis de características locales fue propuesta por Atick et al. de la Universidad Rockefeller. LFA es esencialmente un método de descripción de objetos de baja dimensión basado en estadísticas. En comparación con PCA, que solo puede extraer características globales y no puede retener estructuras topológicas locales, LFA extrae características locales basadas en la descripción de PCA. Se retiene la información topológica global, teniendo así mejores capacidades de descripción y discriminación. La tecnología LFA se ha comercializado en el famoso sistema FaceIt, por lo que no se publicaron nuevos avances académicos en el período posterior.
El proyecto FERET, financiado por la Oficina del Programa de Desarrollo de Tecnología Antinarcóticos del Departamento de Defensa de Estados Unidos, es sin duda un evento crucial en esta etapa. El objetivo del proyecto FERET es desarrollar tecnología AFR que pueda ser utilizada por agencias de seguridad, inteligencia y aplicación de la ley. El proyecto incluye tres partes: financiar varios estudios de reconocimiento facial, crear una base de datos de imágenes faciales FERET y organizar la evaluación del desempeño del reconocimiento facial FERET. El proyecto organizó tres evaluaciones de reconocimiento facial en 1994, 1995 y 1996. En la prueba participaron varios de los algoritmos de reconocimiento facial más conocidos, lo que promovió en gran medida la mejora y la puesta en práctica de estos algoritmos. Otra contribución importante de esta prueba es proporcionar una dirección de desarrollo adicional del reconocimiento facial: los problemas de reconocimiento facial en condiciones de adquisición no ideales, como la iluminación y la postura, se han convertido gradualmente en una dirección de investigación candente.
Los modelos flexibles, incluidos el modelo de forma activa (ASM) y el modelo de apariencia activa (AAM), son una contribución importante al modelado facial durante este período. ASM/AAM describe el rostro humano como dos partes separadas: forma 2D y textura, que se modelan utilizando métodos estadísticos (PCA) respectivamente, y luego integran aún más las dos a través de PCA para modelar estadísticamente el rostro humano. El modelo flexible tiene buenas capacidades de síntesis de rostros y puede utilizar tecnología de análisis de imágenes basada en síntesis para extraer características y modelar imágenes de rostros. Los modelos flexibles se han utilizado ampliamente en la alineación y el reconocimiento de rasgos faciales (FaceAlignment), y han surgido muchos modelos mejorados.
En general, la tecnología de reconocimiento facial en esta etapa se ha desarrollado muy rápidamente y el algoritmo propuesto ha logrado un rendimiento muy bueno en condiciones ideales de recopilación de imágenes, coordinación de objetos y bases de datos de rostros frontales de tamaño pequeño y mediano. Como resultado, han surgido varias empresas comerciales de reconocimiento facial reconocidas. Desde la perspectiva de las soluciones técnicas, el análisis discriminante subespacial lineal de imágenes faciales 2D, los modelos estadísticos de apariencia y los métodos estadísticos de reconocimiento de patrones son las tecnologías principales en esta etapa.
La tercera etapa (1998 ~ presente)
La evaluación del algoritmo de reconocimiento facial FERET'96 muestra que la tecnología de reconocimiento facial convencional tiene problemas con la iluminación, la postura, etc. -condiciones ideales de adquisición o La robustez a los cambios causados por objetos que no cooperan es relativamente pobre. Por lo tanto, los problemas de iluminación y postura se han convertido gradualmente en puntos críticos de investigación. Al mismo tiempo, se han desarrollado aún más los sistemas comerciales de reconocimiento facial. Con este fin, el ejército estadounidense organizó dos revisiones de sistemas comerciales en 2000 y 2002 basadas en la prueba FERET.
El método de reconocimiento facial de múltiples poses y múltiples iluminaciones basado en el modelo de conos de iluminación propuesto por Georghiades et al. es uno de los logros importantes de este período. Demostraron que se llegó a una conclusión importante: todas las imágenes. de la misma cara desde la misma perspectiva y bajo diferentes condiciones de iluminación forman un cono convexo en el espacio de la imagen, es decir, el cono de iluminación. Para calcular el cono de iluminación a partir de una pequeña cantidad de imágenes de rostros con condiciones de iluminación desconocidas, también ampliaron el método fotométrico de visión estereoscópica tradicional para calcular el cono de luz basándose en las condiciones de iluminación desconocidas bajo los supuestos del modelo de Lambert, superficie convexa y distancia lejana. Fuente de luz puntual. 7 imágenes desde el mismo punto de vista restauran la forma 3D del objeto y el coeficiente de reflexión de la superficie del punto de la superficie (la visión estéreo fotométrica tradicional puede restaurar la dirección vectorial normal de la superficie del objeto basándose en las 3 imágenes dadas de iluminación conocida). condiciones), de modo que el objeto se pueda sintetizar fácilmente. Las imágenes bajo cualquier condición de iluminación desde un ángulo de visión se pueden utilizar para completar el cálculo del cono de iluminación. El reconocimiento se logra calculando la distancia desde la imagen de entrada hasta cada cono de iluminación.
La teoría del aprendizaje estadístico representada por máquinas de vectores de soporte también se aplicó al reconocimiento y confirmación de rostros durante este período. La máquina de vectores de soporte es un clasificador de dos clases, mientras que el reconocimiento facial es un problema de varias clases. Por lo general, existen tres estrategias para resolver este problema, a saber: método de diferencia intraclase/diferencia entre clases, método uno a resto y método uno a uno.
El método de reconocimiento y análisis de imágenes faciales de múltiples poses y múltiples iluminaciones basado en el modelo 3D Morphable propuesto por Blanz y Vetter et al es un método nuevo en esta etapa. Este método es esencialmente una tecnología de análisis basada en síntesis. Su principal contribución es que se basa en el modelo de deformación estadística de forma y textura 3D (similar al AAM en 2D), y también utiliza métodos de simulación gráfica para mejorar el proceso de adquisición de imágenes. Para el modelado se utilizan parámetros de modelo de iluminación y proyección en perspectiva, de modo que los atributos internos de la cara, como la forma y la textura de la cara, se puedan separar completamente de los parámetros externos, como la configuración de la cámara y las condiciones de iluminación, lo que es más propicio para el análisis y el reconocimiento. de imágenes de rostros. Los experimentos de Blanz muestran que este método logra una tasa de reconocimiento muy alta tanto en la base de datos de rostros CMU-PIE (Multiple Pose, Illumination and Expression) como en la base de datos de rostros de múltiples poses FERET, lo que demuestra la eficacia del método.
En la Conferencia Internacional sobre Visión por Computadora (ICCV) de 2001, los investigadores del Instituto de Investigación Compaq Viola y Jones demostraron su algoritmo de visión humana en tiempo real basado en características rectangulares simples y el sistema de detección de rostros AdaBoost puede detectar casi. caras frontales en formato CIF a una velocidad de más de 15 fotogramas por segundo. Las principales contribuciones de este método incluyen: 1) usar características rectangulares simples que se pueden calcular rápidamente como características de imágenes faciales 2) un método de aprendizaje que combina una gran cantidad de clasificadores débiles para formar un clasificador fuerte basado en AdaBoost 3) usar Cascade; ) la tecnología mejora la velocidad de detección. En la actualidad, esta estrategia de aprendizaje facial/no facial ha podido lograr la detección y el seguimiento de rostros de múltiples poses en tiempo casi real. Esto proporciona una buena base para el reconocimiento facial en la parte trasera.
Shashua et al. propusieron una tecnología de representación y reconocimiento de imágenes faciales basada en imágenes cocientes [13] en 2001. Esta tecnología es una tecnología de renderizado basada en el aprendizaje de conjuntos de imágenes de clases de objetos específicos. Puede sintetizar imágenes sintéticas de cualquier imagen facial de entrada en diversas condiciones de iluminación en función de una pequeña cantidad de imágenes con diferentes condiciones de iluminación en el conjunto de entrenamiento. Con base en esto, Shasuha et al. también dieron una definición de imágenes de firma facial (Firma) que son invariantes a diversas condiciones de iluminación, que pueden usarse para el reconocimiento facial bajo iluminación invariante, y los experimentos han demostrado su efectividad.
Basri y Jacobs demostraron analíticamente una conclusión importante al utilizar armónicos esféricos para representar la iluminación y un proceso de convolución para describir la reflexión de Lambert: el conjunto de todas las funciones de reflexión de Lambert obtenidas de cualquier fuente de luz de punto lejano forma un subespacio lineal. . Esto significa que la colección de imágenes de un objeto de superficie convexa de Lambert bajo diversas condiciones de iluminación puede aproximarse mediante un subespacio lineal de baja dimensión. Esto no solo es consistente con los resultados experimentales empíricos de métodos de modelado estadístico de iluminación anteriores, sino que también promueve teóricamente el desarrollo de métodos lineales de reconocimiento de objetos subespaciales. Además, esto hace posible utilizar métodos de optimización convexa para forzar que la función de iluminación no sea negativa, lo que proporciona una idea importante para resolver problemas de iluminación.
Tras el proyecto FERET surgieron varios sistemas comerciales de reconocimiento facial. Los departamentos pertinentes del Departamento de Defensa de EE. UU. han organizado además FRVT, una evaluación de sistemas comerciales de reconocimiento facial, que hasta ahora se ha realizado dos veces: FRVT2000 y FRVT2002. Por un lado, estas dos pruebas comparan el rendimiento de sistemas de reconocimiento facial conocidos. Por ejemplo, la prueba FRVT2002 muestra que los tres productos comerciales de Cognitec, Identix y Eyematic están muy por delante de otros sistemas, y la diferencia entre ellos es. no grande. Por otro lado, resume de manera integral el estado actual del desarrollo de la tecnología de reconocimiento facial: en condiciones ideales (fotos de visa frontales), la tasa más alta de reconocimiento preferido de reconocimiento facial (identificación) para 121,589 imágenes de 37,437 personas es del 73%. y verificación facial (La tasa de error igual (EER [14]) de la verificación es aproximadamente del 6%. Otra contribución importante de la prueba FRVT es que también señaló varios problemas que deben resolverse urgentemente con el algoritmo de reconocimiento facial actual. Por ejemplo, la prueba FRVT2002 muestra que el rendimiento de los sistemas comerciales de reconocimiento facial actuales sigue siendo muy sensible a los cambios de iluminación interior y exterior, la postura, el lapso de tiempo y otras condiciones cambiantes. Estos problemas de reconocimiento efectivo en bases de datos faciales a gran escala también son graves. Los problemas son Aún son necesarios mayores esfuerzos.
En términos generales, los problemas de reconocimiento facial en condiciones de imagen no ideales (especialmente iluminación y postura), objetos que no cooperan y bases de datos faciales a gran escala se han convertido gradualmente en un tema de investigación candente. Los métodos de modelado no lineal, la teoría del aprendizaje estadístico, la tecnología de aprendizaje basada en Boosting [15] y los métodos de modelado y reconocimiento facial basados en modelos 3D se han convertido gradualmente en tendencias de desarrollo tecnológico que han atraído mucha atención.
Con todo, el reconocimiento facial es un tema de investigación que tiene valor de investigación científica y amplias perspectivas de aplicación. Décadas de investigación realizadas por un gran número de investigadores internacionales han dado resultados fructíferos y la tecnología de reconocimiento facial automático se ha aplicado con éxito en determinadas condiciones limitadas. Estos resultados han profundizado nuestra comprensión del problema del reconocimiento facial automático, especialmente nuestra comprensión de sus desafíos. Aunque los sistemas automáticos de reconocimiento facial existentes pueden haber superado a los humanos en términos de velocidad e incluso precisión al comparar datos faciales masivos, para problemas generales de reconocimiento facial en condiciones cambiantes complejas, la robustez y precisión de los sistemas automáticos de reconocimiento facial La velocidad es mucho menor que la de humanos. Aún se desconoce la razón esencial de esta brecha. Después de todo, nuestra comprensión del sistema visual humano es todavía muy superficial. Pero desde la perspectiva de disciplinas como el reconocimiento de patrones y la visión por computadora, esto puede significar que aún no hemos encontrado un sensor eficaz para muestrear razonablemente la información facial (considerando la diferencia entre una cámara monocular y un sistema binocular humano). Significa que hemos adoptado métodos de modelado facial inadecuados (problemas con la representación interna de los rostros) también puede significar que no nos damos cuenta de la máxima precisión que la tecnología de reconocimiento automático de rostros puede lograr. Pero en cualquier caso, dotar a los dispositivos informáticos de capacidades de reconocimiento facial similares a las de los humanos es el sueño de muchos investigadores en este campo. Creo que a medida que la investigación continúa profundizándose, nuestra comprensión debería poder aproximarse con mayor precisión a las respuestas correctas a estas preguntas.