Una comprensión profunda de los principios de las imágenes visuales 3D

Las imágenes de visión 3D son uno de los métodos más importantes para la percepción de información de los robots industriales, que se pueden dividir en métodos de imágenes ópticas y no ópticas. En la actualidad, los métodos ópticos más utilizados, que incluyen: método de tiempo de vuelo, método de luz estructurada, método de escaneo láser, método de franjas de Moire, método de moteado láser, interferometría, fotogrametría, método de seguimiento láser, forma a partir del movimiento, forma a partir de la sombra, y otros ShapefromX. Este artículo presenta varios esquemas típicos.

1. Imágenes 3D del tiempo de vuelo

Cada píxel de la cámara de tiempo de vuelo (TOF) utiliza la diferencia de tiempo en el vuelo de la luz para obtener la profundidad del objeto.

En el método de medición TOF clásico, el sistema detector inicia la unidad de detección y recepción en el momento en que se emite el pulso óptico. Cuando el detector recibe el eco óptico del objetivo, almacena directamente el tiempo de ida y vuelta.

También conocido como Direct TOF (DTOF), D-TOF se usa comúnmente en sistemas de alcance de un solo punto, donde a menudo se requiere tecnología de escaneo para lograr imágenes 3D de área amplia.

La tecnología de imágenes TOF 3D sin escaneo no se ha implementado hasta los últimos años, porque es muy difícil implementar una sincronización electrónica de subnanosegundos a nivel de píxeles.

La alternativa al D-TOF cronometrado directo es el TOF indirecto (I-TOF), en el que el tiempo de ida y vuelta se extrapola indirectamente a partir de mediciones de intensidad de luz controladas en el tiempo. I-TOF no requiere una sincronización precisa, sino que emplea contadores de fotones controlados por tiempo o integradores de carga, que pueden implementarse a nivel de píxel. I-TOF es la solución comercializada actualmente para mezcladores electrónicos y ópticos basados en cámaras TOF.

Las imágenes TOF se pueden utilizar para la adquisición de imágenes 3D de gran campo de visión, larga distancia, baja precisión y bajo costo. Sus características son: velocidad de detección rápida, gran campo de visión, larga distancia de trabajo, precio económico, pero baja precisión, y es fácil que la luz ambiental interfiera.

2. Escanee en busca de imágenes en 3D

Los métodos de escaneo de imágenes 3D se pueden dividir en rango de escaneo, triangulación activa, método confocal de dispersión, etc. De hecho, el método confocal de dispersión es un método de escaneo y alcance, considerando que actualmente se usa ampliamente en la industria manufacturera, como teléfonos móviles y pantallas planas, se presenta aquí por separado.

1. Escaneo y alcance

La medición de la distancia de escaneo consiste en utilizar un haz colimado para escanear toda la superficie del objetivo a través de una medición de distancia unidimensional para lograr una medición 3D. Los métodos típicos de alcance de escaneo son:

1. Método de tiempo de vuelo de un solo punto, como rango de modulación de frecuencia de onda continua (FM-CW), rango de pulso (LiDAR), etc.;

2, interferometría de dispersión láser, como interferómetros basados en los principios de interferencia de múltiples longitudes de onda, interferencia holográfica, interferencia de luz blanca, interferencia moteada, etc.

3, método confocal, como confocal de dispersión, autoenfoque, etc.

En el método 3D de escaneo de rango de un solo punto, el método de tiempo de vuelo de un solo punto es adecuado para escaneos de larga distancia y la precisión de la medición es baja, generalmente del orden de milímetros. Otros métodos de escaneo de un solo punto son: interferometría láser de un solo punto, método confocal y método de triangulación activa con láser de un solo punto, la precisión de la medición es mayor, pero el primero tiene altos requisitos ambientales; Precisión de escaneo de línea moderada, alta eficiencia. El método de triangulación láser activa y el método confocal de dispersión son más adecuados para realizar mediciones 3D en el extremo del brazo robótico.

2. Triangulación activa

El método de triangulación activa se basa en el principio de triangulación, utilizando haces colimados, uno o más haces planos para escanear la superficie objetivo y completar la medición 3D.

El haz generalmente se obtiene de las siguientes maneras: colimación láser, expansión del haz angular cilíndrico o cilíndrico cuádruple, luz incoherente (como luz blanca, fuente de luz LED) a través del orificio, proyección de hendidura (rejilla) o difracción de luz coherente.

La triangulación activa se puede dividir en tres tipos: escaneo de un solo punto, escaneo de una sola línea y escaneo de varias líneas. La mayoría de los productos que se comercializan actualmente para su uso en los extremos de los brazos robóticos son escáneres de un solo punto y de una sola línea.

En el método de escaneo de líneas múltiples, es difícil identificar de manera confiable el número de polo marginal. Para identificar con precisión los números de franja, generalmente se adoptan imágenes alternas de alta velocidad de dos conjuntos de planos ópticos verticales, que también pueden realizar el escaneo de "Triangulación Voladora". El proceso de escaneo y reconstrucción tridimensional se muestra en la siguiente figura. Se genera una vista 3D escasa mediante imágenes estroboscópicas de proyección multilínea, y se generan varias secuencias de vistas 3D mediante escaneo de proyección de franjas longitudinales y horizontales. Luego se genera un modelo de superficie 3D completo y compacto con alta resolución mediante la comparación de imágenes 3D.

3. Método confocal de dispersión

El confocal de dispersión parece poder escanear y medir objetos opacos y transparentes rugosos y lisos, como espejos reflectantes, superficies de vidrio transparentes, etc., y actualmente es muy popular en el campo de la detección tridimensional de placas de cubiertas de teléfonos móviles.

Hay tres tipos de escaneo confocal dispersivo: escaneo de rango absoluto unidimensional de un solo punto, escaneo de matriz multipunto y escaneo de línea continua. La siguiente figura enumera dos tipos de ejemplos de alcance absoluto y escaneo de línea continua, respectivamente. Entre ellos, el escaneo de línea continua también es un escaneo de matriz, pero la matriz tiene una red más densa.

En productos comerciales, el sensor confocal espectral de escaneo más conocido es el STILMPLS180 de Francia, que adopta 180 puntos de matriz para formar una línea con una longitud máxima de línea de 4.039 mm (punto de medición a 11,5 p. m., espaciado entre puntos de 22,5 p. m.). Otro producto es la FOCALSPECUULA de Finlandia. Se adopta la técnica del triángulo confocal de dispersión.

3. Imágenes 3D con proyección de luz estructurada.

Las imágenes 3D de proyección de luz estructurada son actualmente la principal forma de percepción visual 3D del robot. El sistema de imágenes de luz estructurada se compone de varios proyectores y cámaras. Las formas estructurales comúnmente utilizadas son: proyector único-cámara única, proyector único-cámara doble, proyector único-múltiples cámara, cámara única - proyector doble y cámara única - proyectores múltiples y otras formas estructurales típicas.

El principio de funcionamiento básico de las imágenes 3D de proyección de luz estructurada es que los proyectores proyectan patrones de iluminación de luz estructurada específicos para los objetos objetivo, y la cámara captura las imágenes moduladas por el objetivo, y luego la información 3D del objeto objetivo se obtiene a través de la imagen. procesamiento y modelo visual.

Los proyectores de uso común tienen principalmente los siguientes tipos: proyección de cristal líquido (LCD), proyección de modulación de luz digital (DLP: como dispositivos de microespejos digitales (DMD)), proyección directa de patrón LED láser.

Según el número de proyecciones de luz estructurada, las imágenes 3D de proyección de luz estructurada se pueden dividir en métodos de proyección única 3D y de proyección múltiple 3D.

1. Imágenes de proyección única

La luz estructurada de proyección única se realiza principalmente mediante codificación de multiplexación espacial y codificación de multiplexación de frecuencia. Las formas de codificación comunes son codificación de colores, índice de grises, codificación de formas geométricas y puntos aleatorios.

En la actualidad, en la aplicación del sistema ojo-mano del robot, para las ocasiones en las que la precisión de la medición 3D no es alta, como paletizado, despaletizado, agarre 3D, etc., es más popular proyectar puntos pseudoaleatorios para obtener el Información 3D del objetivo. El principio de imágenes 3D se muestra en la siguiente figura.

2. Imágenes de proyección múltiple

El método 3D de proyección múltiple se implementa principalmente mediante codificación de multiplexación temporal. Las formas de codificación de patrones comúnmente utilizadas son: codificación binaria, codificación de desplazamiento de fase multifrecuencia τ35 y codificación mixta (como el código gris de franjas de desplazamiento de diez fases).

El principio básico de las imágenes 3D con proyección de franjas se muestra en la siguiente figura. Los patrones de luz estructurados son generados por una computadora o por un dispositivo óptico especial, que se proyectan sobre la superficie del objeto medido a través de un sistema de proyección óptica, y luego se utilizan dispositivos de adquisición de imágenes (como cámaras CCD o CMOS) para recolectar los Imágenes de luz estructuradas deformadas moduladas por la superficie del objeto. El algoritmo de procesamiento de imágenes se utiliza para calcular la relación correspondiente entre cada píxel de la imagen y el punto en el contorno del objeto. Finalmente, mediante el modelo de estructura del sistema y la tecnología de calibración, se calcula la información del contorno tridimensional del objeto medido.

En aplicaciones prácticas, a menudo se utiliza la proyección de código Gray, la proyección de franjas de cambio de fase sinusoidal o la tecnología 3D de proyección mixta de cambio de fase sinusoidal diez de código Gray.

3. Imágenes de deflexión

Para superficies rugosas, la luz estructurada se puede proyectar directamente sobre la superficie del objeto para medir imágenes visuales. Sin embargo, para la medición 3D de superficies lisas de gran reflectancia y objetos espejados, la proyección de luz estructurada no se puede proyectar directamente sobre la superficie medida, y la medición 3D también requiere el uso de tecnología de deflexión de espejo, como se muestra en la siguiente figura.

En este esquema, las franjas no se proyectan directamente sobre el contorno medido, sino que se proyectan sobre una pantalla de dispersión, o se utiliza una pantalla LCD en lugar de la pantalla de dispersión para mostrar las franjas directamente. La cámara recorre la trayectoria de la luz a través de la superficie brillante, obtiene la información marginal modulada por el cambio de curvatura de la superficie brillante y luego resuelve el perfil 3D.

4. Imágenes 3D con visión estéreo

La estereovisión se refiere literalmente a la percepción de una estructura tridimensional con uno o ambos ojos y, en general, se refiere a la reconstrucción de la estructura tridimensional o información de profundidad del objeto objetivo mediante la obtención de dos o más imágenes desde diferentes puntos de vista.

Las señales visuales de percepción de profundidad se pueden dividir en señales oculares y señales binoculares (paralaje binocular). En la actualidad, el 3D estereoscópico se puede lograr mediante visión monocular, visión binocular, visión multiocular e imágenes 3D de campo de luz (ojo compuesto electrónico o cámara de matriz).

1. Imágenes visuales monoculares

Las señales de percepción de profundidad monocular generalmente incluyen perspectiva, diferencia de distancia focal, imágenes de visión múltiple, cobertura, sombra, paralaje de movimiento, etc. En la visión del robot también se puede usar el espejo 1 y otras formas de X10 y otros métodos para lograrlo.

2. Imágenes de visión binocular

Las pistas visuales de la percepción binocular de la profundidad son: posición de convergencia de los ojos y paralaje binocular. En visión artificial, se utilizan dos cámaras para obtener dos imágenes de vista desde dos puntos de vista hacia la misma escena de destino, y luego se calcula el paralaje del mismo punto en las dos imágenes de vista para obtener la información de profundidad 3D de la escena de destino. El proceso típico de cálculo de estereovisión binocular consta de los siguientes cuatro pasos: corrección de distorsión de la imagen, corrección de pares de imágenes estéreo, registro de imágenes y triangulación, reproyección, cálculo del mapa de paralaje.

Situación actual de la industria de instrumentos ópticos en China

Ningbo Zhixing Optical Technology Co., Ltd. tiene el honor de participar en la Exposición Optoelectrónica Internacional de Changchun 2024

Noticias relacionadas