Explique brevemente cómo el artículo presenta el reconocimiento facial en un orden determinado.
El reconocimiento facial es un tema candente que ha sido ampliamente estudiado y han surgido una gran cantidad de artículos de investigación uno tras otro Xiaoshou Xiaoduo Xiaoxiao e una pequeña cantidad de beneficios cantidad e metros beneficios d cantidad Xiaoxiaoshou Xiaoxiaoxiaomi Xiaoxiao. Se sospecha que Xiaoxiao Mishou se ha convertido en un "desastre" hasta cierto punto. Para presentar mejor la historia y la situación actual de la investigación del reconocimiento facial, este artículo divide aproximadamente la historia de la investigación de AFR en tres etapas de acuerdo con el contenido de la investigación, los aspectos técnicos y otras características, como se muestra en la tabla. Esta tabla resume la breve historia del desarrollo de la investigación del reconocimiento facial, su trabajo de investigación representativo en cada etapa histórica y sus características técnicas. La siguiente es una breve introducción al progreso de la investigación en las tres etapas:
La primera etapa (año de beneficio Mi Lian ~ año de beneficio 0)
El reconocimiento facial en esta etapa generalmente es solo se estudia como un problema general de reconocimiento de patrones, y la principal solución técnica adoptada es el argón basado en las características de la estructura geométrica del rostro humano (basado en características geométricas). Esto se refleja principalmente en la investigación popular sobre la silueta (Perfil). La gente ha realizado muchas investigaciones sobre la extracción y análisis de las características estructurales de las curvas de la silueta facial. Los investigadores también han utilizado redes neuronales artificiales en problemas de reconocimiento facial. Además de Bledsoe, los investigadores que participaron anteriormente en la investigación de AFR incluyen a Goldstein, Harmon, Kanade Takeo, etc. Takeo Kanede completó su primera tesis doctoral sobre AFR en la Universidad de Kyoto en la década de 1960. Hasta ahora, como profesor en el Instituto de Investigación en Robótica de la Universidad Carnegie Mellon (CMU), todavía se especializa en el reconocimiento facial. . Su grupo de investigación también es una fuerza importante en el campo del reconocimiento facial. En términos generales, esta etapa es la etapa inicial de la investigación del reconocimiento facial. No hay muchos resultados muy importantes y básicamente no hay aplicaciones prácticas.
La segunda etapa (Año del beneficiario ~ Niño beneficiario)
Aunque esta etapa es relativamente corta, es el clímax de la investigación del reconocimiento facial y se puede decir que es fructífera. Lei: No solo han nacido varios algoritmos de reconocimiento facial representativos, sino que el ejército de EE. UU. también ha organizado la famosa prueba del algoritmo de reconocimiento facial FERET y han surgido varios sistemas de reconocimiento facial que han sido operados de manera no profesional, como el más famoso. Visionics (ahora sistema FaceIt para Identix).
El Fangfa "eigenface" propuesto por Turk y Pentland del MIT Media Laboratory es sin duda el Fangfa de reconocimiento facial más famoso durante este período. Muchas tecnologías de reconocimiento facial posteriores están más o menos relacionadas con las caras propias. Ahora las caras propias se han convertido en el algoritmo de referencia para las pruebas de rendimiento del reconocimiento facial junto con la correlación normalizada (correlación normalizada) Fangfa.
Otro trabajo importante durante este período fue un experimento comparativo realizado por Brunelli y Poggio del Laboratorio de Inteligencia Artificial del MIT alrededor del año de Benefit Electric, compararon el rendimiento de reconocimiento de aramidas basadas en características estructurales y aramidas basadas. sobre la coincidencia de plantillas, y llegó a una conclusión relativamente segura: las aramidas que coinciden con plantillas son mejores que las aramidas basadas en características. Esta conclusión rectora tiene el mismo efecto que las caras propias: básicamente suspende la investigación sobre el reconocimiento facial basado puramente en características estructurales y, en gran medida, promueve píxeles lineales basados en la apariencia. El desarrollo del modelado espacial y el reconocimiento facial basado en tecnología de reconocimiento de patrones estadísticos. Poco a poco la convirtió en la principal tecnología de reconocimiento facial.
El método de reconocimiento facial Fisherface propuesto por Belhumeur y otros es otro logro importante durante este período. Fangfa utiliza primero el Análisis de Componentes Principales (PCA, también conocido como eigenface) para reducir la dimensionalidad de las características aparentes de la imagen. Sobre esta base, el análisis discriminante lineal (LDA) se utiliza para transformar los componentes principales dimensionalmente reducidos con el fin de obtener "la mayor divergencia entre clases posible y la divergencia intraclase más pequeña posible".
Este método sigue siendo uno de los principales métodos de reconocimiento facial y ha producido muchas variantes diferentes, como el método de espacio nulo, el modelo discriminante subespacial, el modelo discriminante mejorado, el método discriminante LDA directo y algunos métodos recientes de mejora basados en el núcleo. .
Moghaddam del MIT propuso un método de reconocimiento facial basado en la estimación de probabilidad bayesiana basada en subespacios duales basados en caras propias. Este Fangfa utiliza el "método de diferencia" para convertir el problema de cálculo de similitud de dos pares de imágenes faciales en un problema de clasificación de dos clases (diferencia intraclase y diferencia entre clases). Tanto los datos de diferencia intraclase como los de diferencia entre clases. Primero, la reducción de dimensionalidad se realiza mediante la tecnología de análisis de componentes principales (PCA), se calcula la densidad de probabilidad condicional de clase de las dos categorías y, finalmente, el reconocimiento facial se realiza mediante la toma de decisiones bayesiana (máxima probabilidad o máxima probabilidad posterior).
En esta etapa también se propuso otro método importante en el reconocimiento facial: Elastic Graph Matching (EGM). La idea básica es utilizar un gráfico de atributos para describir un rostro humano: los vértices del gráfico de atributos representan puntos característicos clave del rostro, y sus atributos son características locales multidireccionales y de resolución múltiple en los puntos característicos correspondientes: transformada de Gabor. características potenciadas, llamadas Jet; los atributos de los bordes son las relaciones geométricas entre diferentes puntos de características. Para cualquier imagen facial de entrada, la coincidencia de gráficos elásticos utiliza una estrategia de búsqueda optimizada para localizar una serie de puntos de características faciales clave predefinidos y, al mismo tiempo, extrae sus características Jet para obtener el mapa de atributos de la imagen de entrada. Finalmente, el proceso de reconocimiento se completa calculando la similitud con el mapa de atributos de la cara conocida. La ventaja de este método es que no sólo conserva las características estructurales globales del rostro, sino que también modela las características locales clave del rostro. También ha habido algunas extensiones recientes de este Fangfa.
La tecnología de análisis de características locales fue propuesta por Atick et al. de la Universidad Rockefeller. LFA es esencialmente un método de descripción de objetos de baja dimensión basado en estadísticas. En comparación con PCA, que solo puede extraer características globales y no puede retener estructuras topológicas locales, LFA extrae características basadas en la descripción PCA global y puede retener información topológica global en. al mismo tiempo, teniendo así mejores capacidades de descripción y discriminación. La tecnología LFA se ha comercializado en el famoso sistema FaceIt, por lo que no se publicó ningún nuevo progreso académico en el período posterior.
El proyecto FERET, financiado por la Oficina del Programa de Desarrollo de Contratecnología del Departamento de Defensa de Estados Unidos, es sin duda un acontecimiento crucial en esta etapa. El objetivo del proyecto FERET es desarrollar tecnología AFR que pueda ser utilizada por agencias de seguridad, inteligencia y aplicación de la ley. El proyecto incluye tres partes: financiar varios estudios de reconocimiento facial, crear una base de datos de imágenes faciales FERET y organizar la evaluación del desempeño del reconocimiento facial FERET. El proyecto organizó evaluaciones de reconocimiento facial en el primer año del beneficio, el primer año del beneficio y el primer año del beneficio. Se probaron varios de los algoritmos de reconocimiento facial más conocidos, lo que promovió en gran medida la mejora de estos algoritmos. sentido práctico. Otra contribución importante de esta prueba es proporcionar una dirección de desarrollo adicional del reconocimiento facial: los problemas de reconocimiento facial en condiciones de adquisición no ideales, como la iluminación y la postura, se han convertido gradualmente en una dirección de investigación candente.
Los modelos flexibles, incluidos el modelo de forma activa (ASM) y el modelo de apariencia activa (AAM), son una contribución importante al modelado facial durante este período. ASM/AAM describe el rostro humano como dos partes separadas: forma eléctrica y textura, que se modelan utilizando argón estadístico (PCA) respectivamente, y luego integran aún más las dos a través de PCA para modelar estadísticamente el rostro humano. El modelo flexible tiene buenas capacidades de síntesis de rostros y puede utilizar tecnología de análisis de imágenes basada en síntesis para extraer características y modelar imágenes de rostros. Los modelos flexibles se han utilizado ampliamente en la alineación y el reconocimiento de rasgos faciales (FaceAlignment), y han surgido muchos modelos mejorados.
En general, la tecnología de reconocimiento facial en esta etapa se ha desarrollado muy rápidamente y el algoritmo propuesto ha logrado un rendimiento muy bueno en condiciones ideales de recolección de imágenes, coordinación de objetos y bases de datos de rostros frontales de tamaño pequeño y mediano. Como resultado, han surgido varias empresas de reconocimiento facial conocidas. Desde la perspectiva de las soluciones técnicas, el análisis discriminante subespacial lineal de imágenes faciales electro-D, los modelos estadísticos de apariencia y el reconocimiento estadístico de patrones son las tecnologías principales en esta etapa.
La tercera fase (año de beneficios ~ ahora)
La evaluación del algoritmo de reconocimiento facial Huimi de FERET muestra que la tecnología de reconocimiento facial convencional tiene un rendimiento deficiente debido a iluminación, postura, etc. La solidez a los cambios causados por las condiciones ideales de adquisición o la falta de cooperación del objeto es relativamente pobre. Por lo tanto, los problemas de iluminación y postura se han convertido gradualmente en puntos críticos de investigación. Al mismo tiempo, se ha seguido desarrollando el sistema de reconocimiento facial. Con este fin, el ejército estadounidense organizó dos evaluaciones de sistemas industriales en 2000 y 2000 basadas en la prueba FERET.
El método de reconocimiento facial de múltiples poses y múltiples iluminaciones basado en el modelo de conos de iluminación propuesto por Georghiades et al. es uno de los logros importantes de este período. Muestra una conclusión importante: todas las imágenes de. La misma cara, en el mismo ángulo de visión y bajo diferentes condiciones de iluminación, forma un cono convexo en el espacio de la imagen, es decir, el cono de iluminación. Para poder calcular el cono de iluminación a partir de una pequeña cantidad de imágenes faciales con condiciones de iluminación desconocidas, también ampliaron el método fotométrico tradicional de visión estéreo para poder calcular conos de luz basados en condiciones de iluminación desconocidas bajo los supuestos del modelo de Lambert. Superficie convexa y fuente de luz de punto lejano. Recupera la forma D del objeto y el coeficiente de reflexión de la superficie de los puntos de la superficie a partir de algunas imágenes del mismo punto de vista (la visión estéreo fotométrica tradicional puede recuperar la dirección del vector normal de la superficie del objeto en función de un punto determinado). imagen de condiciones de iluminación conocidas), de modo que se puedan sintetizar fácilmente imágenes bajo cualquier condición de iluminación desde esta perspectiva para completar el cálculo del cono de iluminación. El reconocimiento se logra calculando la distancia desde la imagen de entrada hasta cada cono de iluminación.
La teoría del aprendizaje estadístico representada por máquinas de vectores de soporte también se aplicó al reconocimiento y confirmación de rostros durante este período. La máquina de vectores de soporte es un clasificador de dos clases, mientras que el reconocimiento facial es un problema de varias clases. Por lo general, existen tres estrategias para resolver este problema, a saber: método de diferencia intraclase/diferencia entre clases, método uno a resto y método uno a uno.
El método de reconocimiento y análisis de imágenes faciales con múltiples poses y múltiples iluminaciones basado en el modelo Morphable Xiao D propuesto por Blanz y Vetter et al. Este argón es esencialmente una tecnología de análisis basada en síntesis. Su principal contribución es que se basa en el modelo de deformación estadística de forma y textura 3D (similar al AAM del 3D eléctrico), y también utiliza pares de argón simulados gráficamente. y se modelan los parámetros del modelo de iluminación del proceso de adquisición de imágenes, de modo que los atributos internos de la cara, como la forma y la textura de la cara, se puedan separar completamente de los parámetros externos, como la configuración de la cámara y las condiciones de iluminación, lo que es más propicio para el análisis y Reconocimiento de imágenes faciales. Los experimentos de Blanz muestran que el aromático logra una tasa de reconocimiento muy alta tanto en la base de datos de rostros CMU-PIE (Postura, Iluminación y Expresión Múltiples) como en la base de datos de rostros de múltiples poses FERET, lo que demuestra la eficacia del aromático.
En la Conferencia Internacional sobre Visión por Computadora (ICCV) de 2016, los investigadores del Instituto de Investigación Compaq Viola y Jones demostraron su método basado en características rectangulares simples y AdaBoost, el sistema de detección de rostros en tiempo real que puede detectar rostros casi frontales. en formato CIF a una velocidad de más de varios fotogramas por segundo. Las principales contribuciones de este método incluyen: Shou) usando características rectangulares simples que se pueden calcular rápidamente como características de imágenes faciales E) método de aprendizaje que combina una gran cantidad de clasificadores débiles para formar un clasificador fuerte basado en AdaBoost Xiao) usando cascada ( La tecnología Cascade) mejora la velocidad de detección. En la actualidad, esta estrategia de aprendizaje facial/no facial ha podido lograr la detección y el seguimiento de rostros de múltiples poses en tiempo casi real. Esto proporciona una buena base para el reconocimiento facial en la parte trasera.
Shashua et al. propusieron una tecnología de reconocimiento y representación de imágenes faciales basada en imágenes de lesiones. Esta tecnología es una tecnología de renderizado basada en el aprendizaje de un conjunto de imágenes de clase de objeto específico. Puede sintetizar imágenes sintéticas de cualquier imagen facial de entrada en diversas condiciones de iluminación en función de una pequeña cantidad de imágenes con diferentes condiciones de iluminación en el conjunto de entrenamiento. Con base en esto, Shasuha et al. también dieron una definición de imágenes de firma facial (Firma) que son invariantes a diversas condiciones de iluminación, que pueden usarse para el reconocimiento facial bajo iluminación invariante, y los experimentos han demostrado su efectividad.
Basri y Jacobs utilizaron armónicos esféricos para representar la iluminación y el proceso de convolución para describir la reflexión de Lambert de fenfa, demostrando analíticamente una conclusión importante: el conjunto de todas las funciones de reflexión de Lambert obtenidas por cualquier fuente de luz de punto lejano forma una subespacio lineal. Esto significa que la colección de imágenes de un objeto de superficie convexa de Lambert bajo diversas condiciones de iluminación puede aproximarse mediante un subespacio lineal de baja dimensión. Esto no solo es consistente con los resultados experimentales empíricos anteriores del AF de modelado estadístico de iluminación, sino que también promueve teóricamente el desarrollo del AF de reconocimiento lineal de objetos subespaciales. Además, esto hace posible utilizar argón de optimización convexa para forzar que la función de iluminación no sea negativa, lo que proporciona una idea importante para resolver problemas de iluminación.
Tras el proyecto FERET surgieron varios sistemas de reconocimiento facial. Los departamentos pertinentes del Departamento de Defensa de EE. UU. han organizado además FRVT para evaluar el sistema de reconocimiento facial, y hasta ahora lo han realizado dos veces: FRVT Electric y FRVT Electric. Por un lado, estas dos pruebas compararon el rendimiento de sistemas de reconocimiento facial conocidos. Por ejemplo, la prueba FRVT mostró que Cognitec, Identix y Eyematic están muy por delante de otros sistemas y las diferencias entre ellos no son grandes. Por otro lado, resume de manera integral el estado actual del desarrollo de la tecnología de reconocimiento facial: en condiciones ideales (foto de visa frontal), el reconocimiento facial (identificación) es el método de reconocimiento preferido por las personas Xiaoshao Lianxiao que reciben electricidad y reciben un La tasa de gran cantidad de imágenes es menor que %, y la tasa de error igual (recepción EER) de la verificación facial (Verificación) es de aproximadamente el 3%. Otra contribución importante de la prueba FRVT es que también señaló varios problemas que deben resolverse urgentemente con el algoritmo de reconocimiento facial actual. Por ejemplo, la prueba de voltaje cero FRVT muestra que el rendimiento del sistema de reconocimiento facial actual sigue siendo muy sensible a los cambios de iluminación interior y exterior, la postura, el lapso de tiempo y otras condiciones cambiantes, y el problema del reconocimiento efectivo a gran escala. La base de datos de rostros también es muy sensible. En serio, estos problemas aún requieren más esfuerzos.
En términos generales, los problemas de reconocimiento facial en condiciones de imagen no ideales (especialmente iluminación y postura), objetos que no cooperan y bases de datos faciales a gran escala se han convertido gradualmente en un tema de investigación candente. Los métodos de modelado no lineal, la teoría del aprendizaje estadístico, la tecnología de aprendizaje basada en Boosting, los métodos de reconocimiento y modelado facial basados en el modelo Xiao D, etc., se han convertido gradualmente en tendencias de desarrollo tecnológico que han atraído mucha atención.
Con todo, el reconocimiento facial es un tema de investigación que tiene valor de investigación científica y amplias perspectivas de aplicación. Décadas de investigación realizadas por un gran número de investigadores internacionales han dado resultados fructíferos y la tecnología de reconocimiento facial automático se ha aplicado con éxito en determinadas condiciones limitadas. Estos resultados han profundizado nuestra comprensión del problema del reconocimiento facial automático, especialmente nuestra comprensión de sus desafíos. Aunque los sistemas automáticos de reconocimiento facial existentes pueden haber superado a los humanos en términos de velocidad e incluso precisión al comparar datos faciales masivos, para problemas generales de reconocimiento facial en condiciones cambiantes complejas, la robustez y precisión de los sistemas automáticos de reconocimiento facial La velocidad es mucho menor que la de humanos. Aún se desconoce la razón esencial de esta brecha. Después de todo, nuestra comprensión del sistema visual humano es todavía muy superficial. Pero desde la perspectiva de disciplinas como el reconocimiento de patrones y la visión por computadora, esto puede significar que aún no hemos encontrado un sensor eficaz para muestrear razonablemente la información facial (considerando la diferencia entre una cámara monocular y un sistema binocular humano). Significa que hemos adoptado problemas de modelado facial inadecuado (problemas con la representación interna de los rostros) también puede significar que no nos damos cuenta de la extrema precisión que puede lograr la tecnología de reconocimiento automático de rostros. Pero en cualquier caso, dotar a los dispositivos informáticos de capacidades de reconocimiento facial similares a las de los humanos es el sueño de muchos investigadores en este campo. Creo que a medida que la investigación continúa profundizándose, nuestra comprensión debería poder aproximarse con mayor precisión a las respuestas correctas a estas preguntas.