Reconstrucción tridimensional (2): Introducción básica a la tecnología de visión estéreo multiángulo (2)
El punto popular es tomar fotografías primero, luego calcular los parámetros de la cámara de cada foto, luego reconstruir la estructura geométrica tridimensional de la escena en la foto a partir de estas fotos y parámetros, y finalmente ajustar los resultados de la reconstrucción.
En este artículo, presento las dos primeras partes: 1. Cómo obtener imágenes; 2. Modelo de proyección de cámara.
En escenas estéreo multivista (MVS), normalmente obtenemos fotografías en tres situaciones:
La técnica general es jugar primero en el laboratorio (debido a las condiciones de iluminación del lugar). El laboratorio es completamente controlable), luego pruébelo al aire libre a pequeña escala y finalmente pruébelo con datos a gran escala. Esto también está en consonancia con el proceso de exploración y comprensión científica general. Lo mismo ocurrió con la primera tecnología MVS.
Estas tecnologías se benefician principalmente de dos puntos desde trucos de laboratorio hasta aplicaciones prácticas: 1. Actualización de hardware; 2. Mejora del algoritmo de "movimiento a estructura".
Aquí "movimiento hacia la estructura" es mi traducción literal, que es relativamente simple y tosca. El texto original en inglés es Structure from Motion, abreviado como SfM.
Permítanme hablar primero del primer punto, que es la mejora del hardware. De hecho, esto es obvio para todos. Ahora la memoria puede alcanzar fácilmente los 128G, muchas CPU tienen 6 núcleos y cada núcleo tiene dos subprocesos, y los discos duros son básicamente de 4T o más. Hablemos de teléfonos móviles y cámaras. Los teléfonos móviles han dado un vuelco en los últimos 10 años. Hace 10 años, el Nokia 6120C todavía estaba en uso. Ahora básicamente uso la última versión de iPhone. No necesito decir la diferencia. Las cámaras también han realizado grandes mejoras en este ámbito, en primer lugar, debido a la mejora en la calidad del sensor y el tamaño de los píxeles, y también debido al aumento de la capacidad de la tarjeta de memoria, el almacenamiento es más conveniente. De hecho, estas actualizaciones de hardware son muy sencillas en comparación con las actualizaciones de la tarjeta gráfica. Desde el año 12, NVIDIA no solo ha satisfecho las necesidades del auge del aprendizaje profundo, sino que también ha hecho grandes contribuciones al auge del aprendizaje profundo. No es de extrañar que el jefe de NVIDIA (es de Taiwán y tiene una buena relación con un amigo de mi jefe) siempre nos sonríe en las cumbres de visión por computadora. Supongo que, desde el fondo de nuestro corazón, también somos vendedores que aportamos dividendos a NVIDIA sin recibir dinero.
Estas mejoras de hardware permiten que la tecnología SfM y la tecnología MVS procesen fácilmente millones de imágenes, logrando así una reconstrucción tridimensional a escala de aglomeración urbana, e incluso a escala nacional y global.
Los investigadores han estado trabajando en la tecnología de reconstrucción 3D durante muchos años, pero sólo recientemente esta tecnología práctica ha estado disponible para uso industrial a gran escala. Esto se debe al desarrollo de dos tecnologías, una es la tecnología SfM y la otra es la muy práctica tecnología de mapeo y posicionamiento simultáneo (SLAM). La tecnología SLAM tiene una amplia gama de aplicaciones, como la tecnología SLAM utilizada por los robots de barrido.
El modelo de cámara original es una cámara estenopeica. Wikipedia presenta la cámara estenopeica de la siguiente manera:
Para estudiar el modelo de cámara estenopeica en profundidad, es necesario comprender varios sistemas de coordenadas clave: Mundo sistema de coordenadas W, sistema de coordenadas de cámara C, sistema de coordenadas de imagen I y sistema de coordenadas de sensor s. Aunque estos cuatro sistemas de coordenadas son diferentes, se pueden convertir. El objeto real está en el sistema de coordenadas mundial W. Supongamos que hay un punto x-W en el objeto. Entonces la posición x-C de este punto x-W en el sistema de coordenadas de la cámara C se puede obtener mediante la transformación de W a C. De manera similar, nosotros. También puede obtener la posición x-W de x-W en la imagen. La posición x-I en el sistema de coordenadas I y la posición x-S en el sistema de coordenadas del sensor S.
La siguiente imagen es un modelo de cámara estenopeica simple.
Para un sistema de imágenes de una sola cámara, generalmente creemos que el sistema de coordenadas mundial W y el sistema de coordenadas de la cámara C son iguales, es decir, en estos dos sistemas, la posición del punto X en el El objeto en W y C es el mismo, es decir, X-W = X-C, pero para un sistema de imágenes de múltiples cámaras, pensamos que W es diferente de cada Ci (Ci es el primer sistema de imágenes de cámaras).
Por supuesto, para las cámaras gran angular, el sistema de coordenadas mundiales y el sistema de coordenadas de la cámara también son diferentes.
Por ejemplo, como se muestra a continuación:
Para la esquina superior izquierda de la imagen de arriba, dado que la cámara gran angular ve un rango mayor, cada parte de la imagen se distorsionará, como por ejemplo la parte central. ampliada y las partes circundantes reducidas. Luego, cuando restauremos, reduciremos la parte central y ampliaremos el área circundante al mismo tiempo, para obtener la perspectiva normal de la escena en la imagen, que es la fotografía tomada con una cámara que no es de gran angular.
Otro problema de las cámaras, el efecto de obturación enrollable, tiene que ver con la velocidad de obturación y el modo de memoria del sensor de la cámara. Generalmente, el sensor almacena la información de la escena contenida en la luz incidente línea por línea. Sin embargo, si el obturador es demasiado rápido, la información almacenada en los píxeles de la línea anterior y los píxeles de la línea siguiente no coincidirán. Por ejemplo, en el momento en que sonríes, la fila superior de píxeles almacena tus labios, mientras que la fila inferior de píxeles captura tu sonrisa. Si este fenómeno no te resulta especialmente intuitivo, puedes ver la animación en este enlace: /2017/06/30/rolling-shutter-effect-works/.
PD. A partir de este artículo, cambié un libro para estudiar la reconstrucción 3D. Este estéreo multivista: tutorial es un poco complicado. ¿Mi amigo me recomendó que estudiara cristianismo? El libro "Visión por computadora 3D: métodos y aplicaciones eficientes" escrito por hler. Espero explicarle este libro en un lenguaje fácil de entender.