¿Cuáles son los principios de la visión artificial 3D? ¿Cuáles son los principios de la visión artificial 3D? - Blog

La visión 3D es un campo multidisciplinario que involucra gráficos por computadora, visión por computadora e inteligencia artificial. Su objetivo es permitir que las máquinas comprendan y procesen información en un espacio tridimensional-, logrando una percepción profunda, un reconocimiento y una comprensión de objetos y escenas.

Tareas principales

Reconstrucción 3D

Estimación de profundidad de escenas 3D o muestreo digital de superficies de objetos, así como procesamiento y visualización de datos 3D; reconstrucción monocular, reconstrucción binocular, reconstrucción basada en luz-estructurada, reconstrucción basada en láser-; reconstrucción 3D a gran-escala, reconstrucción 3D móvil.

Estimación de pose

Cálculo de la posición y orientación de cámaras u objetos en un espacio físico tridimensional-y seguimiento en tiempo-real.

Comprensión 3D

Detección, reconocimiento y recuperación de objetos, así como segmentación y etiquetado semántico de escenas u objetos.

Principios de trabajo

Las imágenes de visión 3D son uno de los métodos más importantes para la percepción de información en robots industriales y se pueden dividir en métodos de imágenes ópticas y no-ópticas. Actualmente, los métodos ópticos son los más utilizados.

Método de tiempo-de-vuelo (TOF)

Este método calcula la distancia a un objeto midiendo la diferencia de tiempo entre la emisión y la recepción de la luz. Tomando una cámara TOF como ejemplo, cada píxel utiliza la diferencia de tiempo del vuelo de la luz para obtener la profundidad del objeto. En los métodos de medición clásicos, el sistema detector comienza a cronometrar cuando emite un pulso de luz, almacena el tiempo de ida y vuelta cuando recibe el eco de luz objetivo y estima la distancia objetivo según una fórmula.

Se divide en TOF directo (DTOF) y TOF indirecto (I-TOF). DTOF se utiliza generalmente en sistemas de alcance de un solo-punto, y lograr imágenes 3D en un área-amplia a menudo requiere tecnología de escaneo; I-TOF extrapola indirectamente el tiempo del viaje de ida y vuelta a partir de mediciones-de intensidad de luz controladas por tiempo, lo que elimina la necesidad de una sincronización precisa, y actualmente es una solución comercializada para mezcladores electrónicos y ópticos basados en cámaras TOF. Las imágenes TOF se pueden utilizar para la adquisición de imágenes 3D de gran campo de visión, larga-distancia, baja-precisión y bajo-coste, y se utilizan para la percepción ambiental en sistemas inteligentes no tripulados (como robots, vehículos no tripulados, drones, etc.).

Proyección de luz estructurada Imágenes 3D

Las imágenes 3D con proyección de luz estructurada son actualmente el principal método para la percepción de la visión 3D en robots. Un proyector proyecta un patrón de iluminación de luz estructurado específico sobre el objeto objetivo, como rayas o patrones de código Gray, y una cámara captura la imagen modulada por el objetivo. Debido a las ondulaciones de la superficie del objeto, el patrón de luz estructurado se deforma en la superficie del objeto. Al procesar imágenes y utilizar modelos visuales para comparar los patrones antes y después de la deformación, y analizar la distorsión del patrón, se puede calcular la información de coordenadas tridimensionales de cada punto en la superficie del objeto objetivo.

En aplicaciones de sistemas robóticos de mano-ojo, para escenarios donde no se requiere una alta precisión de medición 3D (como paletizado, despaletizado y agarre 3D), el método de proyectar patrones de moteado pseudo-aleatorios para obtener información 3D objetivo es bastante popular. Este método se usa comúnmente en inspección industrial y modelado 3D, y puede obtener rápidamente datos 3D de la superficie del objeto. Un sistema de imágenes de luz estructurada consta de varios proyectores y cámaras. Las formas estructurales comunes incluyen: proyector único-cámara única, proyector único-cámara doble, proyector único-cámaras múltiples, cámara única-proyectores duales y cámara única-proyectores múltiples.

El principio de funcionamiento básico de las imágenes 3D con proyección de luz estructurada es el siguiente: el proyector proyecta un patrón de iluminación de luz estructurada específico sobre el objeto objetivo, la cámara captura la imagen modulada por el objetivo y luego la información 3D del objeto objetivo se obtiene mediante procesamiento de imágenes y modelos visuales. Los tipos comunes de proyectores incluyen: pantalla de cristal líquido (LCD), proyección de modulación de luz digital (DLP: como dispositivos de microespejos digitales (DMD)) y proyección directa de patrón LED láser.

Según la cantidad de proyecciones de luz estructurada, las imágenes 3D con proyección de luz estructurada se pueden dividir en métodos 3D de un solo-disparo y de múltiples-disparos. La luz estructurada de un solo-disparo utiliza principalmente codificación de multiplexación espacial y codificación de multiplexación de frecuencia. Las formas de codificación comunes incluyen: codificación de color, indexación en escala de grises, codificación de formas geométricas y patrones moteados aleatorios. Actualmente, en aplicaciones de sistemas robóticos de mano-ojo, para escenarios donde no se requiere una alta precisión de medición 3D, como paletizado, despaletizado y agarre 3D, se utiliza ampliamente el método de proyectar patrones de moteado pseudo-aleatorios para obtener información 3D del objetivo.

Los métodos 3D de tomas múltiples utilizan principalmente codificación de multiplexación de tiempo. Las formas de codificación de patrones comunes incluyen: codificación binaria, codificación de cambio de fase-multi{4}}frecuencia y métodos de codificación híbridos (como código Gray y franjas de cambio de fase-). El principio básico de las imágenes 3D con luz estructurada se muestra en la siguiente figura. Se genera un patrón de luz estructurado utilizando una computadora o un dispositivo óptico especial y luego se proyecta sobre la superficie del objeto bajo prueba usando un sistema de proyección óptica. Se utiliza un dispositivo de adquisición de imágenes (como una cámara CCD o CMOS) para capturar la imagen de luz estructurada modulada y deformada por la superficie del objeto. Luego se utilizan algoritmos de procesamiento de imágenes para calcular la correspondencia entre cada píxel de la imagen y los puntos del contorno del objeto. Finalmente, la información del contorno tridimensional-del objeto se calcula utilizando el modelo de estructura del sistema y su tecnología de calibración. En aplicaciones prácticas, se utilizan comúnmente la proyección de código Gray, la proyección de franjas con cambio de fase sinusoidal- o un código Gray híbrido y tecnología 3D con cambio de fase sinusoidal-.

Para superficies rugosas, la luz estructurada se puede proyectar directamente sobre la superficie del objeto para medir imágenes visuales; sin embargo, para la medición 3D de superficies lisas altamente reflectantes y objetos reflejados, la proyección de luz estructurada no se puede proyectar directamente sobre la superficie bajo prueba, y la medición 3D requiere el uso de técnicas de reflexión especular.

En este esquema, las franjas no se proyectan directamente sobre el contorno del objeto bajo prueba, sino sobre una pantalla de dispersión, o se utiliza una pantalla de cristal líquido (LCD) para mostrar directamente las franjas. La cámara adquiere la información marginal modulada por los cambios de curvatura de la superficie brillante a través de la trayectoria de la luz reflejada y luego calcula la morfología del contorno tridimensional.

Escaneo de imágenes 3D

Los métodos de escaneo de imágenes 3D se pueden dividir en métodos de escaneo de alcance, triangulación activa y confocales cromáticos. El alcance de escaneo utiliza un haz de luz colimado para escanear toda la superficie del objetivo para realizar mediciones en 3D. Los métodos típicos de medición de rango de escaneo incluyen: métodos de tiempo de un solo-punto-de-vuelo, como el rango de modulación de frecuencia de onda continua (FM-CW) y el rango de pulso (LiDAR); interferometría de dispersión láser, como interferómetros basados en principios de interferencia de múltiples longitudes de onda, interferencia holográfica, interferencia de luz blanca y interferencia de moteado; y métodos confocales, como el confocal cromático y el enfoque automático.

En los métodos 3D de escaneo de rango de un solo-punto, el método-de tiempo-de-vuelo de un solo-punto es adecuado para el escaneo de larga-distancia, pero la precisión de la medición es relativamente baja, generalmente en el rango milimétrico. Otros métodos de escaneo de un único-punto incluyen la interferometría láser de un único-punto, la microscopía confocal y la triangulación láser activa de un único-punto. Estos métodos ofrecen una alta precisión de medición, pero el primero requiere un entorno controlado. El escaneo de líneas ofrece una precisión moderada y una alta eficiencia. La triangulación láser activa y la microscopía confocal cromática son particularmente adecuadas para la medición 3D en el efector final de un brazo robótico. La triangulación activa se basa en el principio de triangulación, utilizando un haz colimado o uno o más haces planos para escanear la superficie objetivo para realizar mediciones en 3D.

El haz de luz generalmente se obtiene de las siguientes maneras: colimación láser, expansión del haz prismático de superficie cilíndrica o cuádrica, luz no-coherente (como luz blanca, fuente de luz LED) proyectada a través de pequeños orificios, rendijas (rejillas) o difracción de luz coherente. La triangulación activa se puede dividir en tres tipos: escaneo de un solo-punto, escaneo de una sola-línea y escaneo de varias-líneas. Actualmente, la mayoría de los productos disponibles comercialmente para efectores finales de brazos robóticos son escáneres de un solo-punto y de una sola-línea.

En los métodos de escaneo multi-líneas, la identificación confiable de números marginales es un desafío. Para identificar con precisión los números marginales, generalmente se obtienen imágenes de dos conjuntos de planos de luz perpendiculares a alta velocidad y de forma alterna. Esto también permite el escaneo de "Triangulación Voladora", cuyo proceso de escaneo y reconstrucción 3D se muestra en la siguiente figura. La proyección multi-línea y las imágenes con un solo-flash producen una vista 3D escasa. Se generan varias secuencias de vistas 3D mediante escaneo de proyección de franjas longitudinales y transversales, y luego se genera un modelo de superficie 3D denso, completo y de alta resolución mediante el registro de imágenes 3D.

La microscopía confocal cromática parece capaz de escanear y medir objetos opacos y transparentes rugosos y lisos, como superficies reflectantes y superficies de vidrio transparente, y actualmente se usa ampliamente en campos como la inspección 3D de cubiertas de teléfonos móviles. El escaneo confocal cromático tiene tres tipos: escaneo de medida de distancia absoluta unidimensional-un punto-, escaneo de matriz de múltiples-puntos y escaneo de línea continua. La siguiente figura muestra ejemplos de medición de distancia absoluta y escaneo de línea continua. El escaneo de línea continua también es un tipo de escaneo de matriz, pero con una matriz de puntos más grande y densa.

Imágenes 3D con visión estéreo

La visión estéreo generalmente se refiere a la reconstrucción de la estructura 3D o la información de profundidad de un objeto objetivo mediante la adquisición de dos o más imágenes desde diferentes puntos de vista. Las señales visuales de percepción de profundidad se pueden dividir en señales oculares y señales binoculares (disparidad binocular). Actualmente, la visión estéreo 3D se puede lograr mediante visión monocular, visión binocular, visión múltiple-e imágenes 3D de campo de luz (ojo compuesto electrónico o cámara de matriz). Las señales de percepción de profundidad de la visión monocular generalmente incluyen: perspectiva, diferencias de distancia focal, imágenes de múltiples vistas, oclusión, sombras, paralaje de movimiento, etc.

En la visión robótica, también se puede lograr utilizando imágenes especulares y otros métodos de formas-a partir de-X. Visión binocular percepción de profundidad Las señales visuales incluyen: posición de convergencia de los ojos y disparidad binocular. En visión artificial, se utilizan dos cámaras para adquirir dos imágenes de puntos de vista de la misma escena objetivo desde dos puntos de vista, y luego se calcula la disparidad de los puntos correspondientes en las dos imágenes de puntos de vista para obtener la información de profundidad 3D de la escena objetivo. Un proceso típico de cálculo de visión estéreo binocular incluye los siguientes cuatro pasos: corrección de distorsión de imagen, rectificación de pares de imágenes estéreo, registro de imágenes y cálculo del mapa de disparidad de reproyección de triangulación.

Las imágenes de visión de múltiples-vistas, o imágenes estéreo de múltiples-vistas, utilizan una o varias cámaras para adquirir múltiples imágenes de la misma escena de destino desde múltiples puntos de vista para reconstruir la información tridimensional-de la escena de destino.

Las imágenes estéreo de múltiples-vistas se utilizan principalmente en los siguientes escenarios: usar múltiples cámaras desde diferentes puntos de vista para adquirir múltiples imágenes de la misma escena de destino y luego usar reconstrucción estéreo basada en funciones-y otros algoritmos para obtener información sobre la profundidad de la escena y la estructura espacial; utilizando la técnica de estructura-de-movimiento (SFM), utilizando la misma cámara con sus parámetros intrínsecos sin cambios, para adquirir múltiples imágenes desde diferentes puntos de vista para reconstruir la información tridimensional-de la escena de destino. Esta tecnología se usa comúnmente para rastrear una gran cantidad de puntos de control en una escena objetivo, recuperando continuamente la información estructural 3D de la escena, así como la pose y posición de la cámara. Las imágenes de campo de luz difieren de los principios de imágenes de cámaras tradicionales. Las cámaras tradicionales forman una imagen 2D directamente en el plano de la imagen después de que la luz pasa a través de la lente.

Las cámaras de campo luminoso añaden un conjunto de microlentes delante del plano del sensor. La luz que incide a través de la lente principal pasa nuevamente a través de cada microlente y es recibida por la matriz fotosensible, obteniendo así información sobre la dirección y posición de los rayos de luz. Esto permite que los resultados de las imágenes se procesen más tarde, logrando un efecto de "disparar primero, enfocar después" y permitir la recuperación de la estructura tridimensional-de la escena utilizando esta información. En campos como la realidad virtual y la realidad aumentada, la tecnología de imágenes de campo de luz ayuda a proporcionar una experiencia visual más realista y permite una percepción tridimensional-y una interacción con la escena más precisa.

El principio de obtención de imágenes 3D de campo de luz difiere estructuralmente de los principios de obtención de imágenes de las cámaras CCD y CMOS tradicionales. Las cámaras tradicionales proyectan la luz directamente en el plano de la imagen después de pasar a través de la lente, produciendo generalmente una imagen 2D. Las cámaras de campo de luz agregan una matriz de microlentes frente al plano del sensor, lo que hace que la luz que incide a través de la lente principal pase nuevamente a través de cada microlente y sea recibida por la matriz fotosensible, obteniendo así información sobre la dirección y posición de los rayos de luz. Esto permite el pos-procesamiento de los resultados de las imágenes, logrando un efecto de "disparar primero, enfocar después".