principi postroeniya i preimushestva sistemi 3d raspoznav

Буров А. Artículos 17.10.2024

Principios de construcción y ventajas de una cara 3D sistema de reconocimiento.

Reconocer objetos dentro del campo de visión de los sistemas de videovigilancia es una tarea importante y técnicamente compleja. Muchos desarrolladores, incluida la empresa Vocord, llevan mucho tiempo trabajando con éxito en este tema.
En particular, los principios de construcción de sistemas de reconocimiento basados en el análisis de imágenes bidimensionales se aplican desde hace mucho tiempo en la práctica. El siguiente paso es el desarrollo de una tecnología más prometedora para reconocer objetos basada en su modelo tridimensional (reconocimiento 3D).

Ventajas de las tecnologías 3D
Actualmente, los sistemas de reconocimiento se suelen dividir en dos categorías: bidimensionales (basados en imágenes planas o bidimensionales, 2D) y tridimensionales (el reconocimiento se realiza utilizando tres reconstruidos -imágenes tridimensionales, 3D).
Los sistemas de reconocimiento basados en imágenes bidimensionales tienen una serie de desventajas importantes. Por ejemplo, los sistemas de reconocimiento 2D son muy sensibles a las condiciones de iluminación. Cuando la cara se ilumina de forma desigual, la fiabilidad del reconocimiento 2D disminuye notablemente. Mientras que para los sistemas de reconocimiento 3D, los cambios en la iluminación solo afectan la textura del rostro, y la superficie reconstruida del rostro permanece sin cambios.
Otra diferencia importante entre las tecnologías de reconocimiento 3D y las tecnologías de reconocimiento 2D es su resistencia a los cambios faciales. Para compensar este efecto, el reconocimiento 2D utiliza la transformación de la imagen a una posición canónica. Sin embargo, la eficacia de este enfoque depende de la precisión de la ubicación de los puntos antropométricos en la cara y no funciona bien con fuertes desviaciones angulares de la vista frontal. La situación se ve agravada aún más por el hecho de que incluso con una ubicación idealmente precisa de los puntos antropométricos, el problema de la reducción a una forma canónica no tiene una solución matemática estricta debido a la propiedad de la proyección en perspectiva. Como resultado, la desviación de ángulo permitida desde la posición frontal es de 15 grados vertical y horizontalmente para los mejores ejemplos de sistemas de reconocimiento 2D.
Con el reconocimiento 3D, el ángulo permitido de desviación de la cabeza respecto del ángulo frontal puede alcanzar los 45 grados. Si el modelo reconstruido y su imagen de referencia almacenada en la base de datos se obtienen desde diferentes ángulos, entonces puede rotar el modelo utilizando el software. Además, puede rotar el objeto y colocarlo en vista frontal para su posterior reconocimiento mediante algoritmos bidimensionales estándar.
Los sistemas de reconocimiento facial utilizan puntos antropométricos estables, cuya ubicación caracteriza las características individuales de un rostro. En los modelos 3D los puntos antropométricos se determinan con mayor precisión que en las imágenes 2D. Además, los puntos de los modelos 3D tienen tres coordenadas y, en consecuencia, proporcionan más información que los mismos puntos de una imagen 2D. La Figura 1 muestra un ejemplo de colocación automática de 68 puntos antropométricos.

principi postroeniya i preimushestva sistemi 3d raspoznav 2

Figura 1. Puntos antropométricos conectados en triángulos

Otra ventaja importante de los sistemas de reconocimiento 3D es la capacidad de utilizar distancias absolutas entre puntos biométricos, mientras que en los sistemas de reconocimiento 2D es posible trabajar sólo con tamaños relativos.
Los sistemas de reconocimiento 2D tradicionales utilizan áreas de la imagen de alto contraste, como los ojos, la boca, la nariz y los límites faciales, y no hacen un buen uso de la información en áreas de bajo contraste como las mejillas, la frente y el mentón. A diferencia del reconocimiento bidimensional, el reconocimiento tridimensional también utiliza información de áreas de bajo contraste para su análisis. Además, la forma de la superficie de la frente y otras zonas de la cara débilmente deformables apenas cambia con las diferentes expresiones faciales (como la sonrisa), lo que también se utiliza en el reconocimiento 3D.
Sin embargo, el reconocimiento 3D tampoco es perfecto. Por ejemplo, la iluminación no es un problema en la etapa de reconocimiento 3D, pero puede afectar negativamente el resultado de la reconstrucción de la forma de la cara en 3D. Dependiendo del algoritmo de reconstrucción, algunas partes de la cara (por ejemplo, áreas sobreexpuestas o áreas con muy bajo contraste) pueden aparecer como espacios o valores atípicos (artefactos) en la superficie de reconstrucción.
Otra desventaja del reconocimiento 3D es el elevado coste de los equipos utilizados, ya que un sistema de reconocimiento 3D requiere muchos más recursos informáticos que los sistemas de reconocimiento 2D.
Hasta hace poco, la falta de adopción de sistemas 3D probablemente se debía a la falta de sensores de vídeo de alta resolución en el mercado. En mi opinión, la investigación realizada por desarrolladores líderes en el campo del reconocimiento 3D, así como la aparición de cámaras de vídeo disponibles comercialmente, deberían estimular el desarrollo de sistemas de reconocimiento 3D.

Direcciones de reconocimiento 3D
Entre los distintos enfoques de reconocimiento 3D, se pueden distinguir tres principales: el análisis de la forma de la superficie 3D del rostro, los enfoques estadísticos y el uso de un modelo facial paramétrico.
Los métodos basados en el análisis de la forma de una imagen tridimensional de una cara utilizan la geometría de la superficie que describe la cara. Estos enfoques se pueden clasificar en tres grupos, utilizando propiedades de superficie locales o globales (por ejemplo, curvatura), perfiles de línea y métricas de distancia entre dos superficies.
La curvatura de la superficie se puede utilizar para segmentar la superficie facial en características que se pueden utilizar para comparar superficies. Otro enfoque se basa en descriptores 3D de la superficie facial en términos de curvatura media y gaussiana o en términos de distancias y relaciones de ángulos entre puntos característicos de las superficies. Otro método orientado localmente es el enfoque del punto de firma. La idea del método es formar una representación-descripción de un punto seleccionado utilizando puntos vecinos alrededor de un punto de superficie determinado. Estas firmas de puntos se utilizan para comparar superficies.
Para mejorar la eficiencia de los algoritmos de reconocimiento, se utiliza un método en el que se eliminan de consideración aquellas partes de la superficie que están sujetas a cambios como resultado de cambios en las expresiones faciales. Sólo las partes duras de la cara son la información básica para el reconocimiento. Además de la información 3D, también se utiliza información de textura en áreas de la cara.
También existen métodos híbridos basados en combinar información de la superficie local en forma de momentos locales con una malla tridimensional global que describe la superficie de toda la cara.
En uno de esos métodos, el valor de la función Z(x,y) que describe el “mapa de profundidad de la cara” en el sistema de coordenadas alineado se descompone en componentes de Fourier. Descomponer la función en momentos (funciones básicas) le permite suavizar pequeños «ruidos faciales» de alta frecuencia y valores atípicos aleatorios.
Además del desarrollo de Fourier, se utilizan otras funciones de base: series de potencias, polinomios de Legendre y momentos de Zernike.
Los métodos globales utilizan toda la información de la imagen 3D de todo el rostro como entrada al sistema de reconocimiento. Por ejemplo, un modelo de rostro se alinea según su simetría especular y se extraen y comparan los perfiles de rostro a lo largo del plano de alineación. También se utiliza un método para comparar modelos faciales en función de los valores máximos y mínimos y la dirección de curvatura de los perfiles.
Otro enfoque se basa en un método para comparar distancias entre superficies para su reconocimiento. Algunos métodos se basan en calcular métricas de las distancias más pequeñas entre las superficies del modelo, otros se basan en medir la distancia no solo entre superficies, sino también la textura de la superficie. Sin embargo, una limitación importante de estos métodos es que la cara no se puede deformar y su superficie es rígida.
El tercer enfoque se basa en la extracción y análisis de perfiles y contornos tridimensionales extraídos del rostro.
Los métodos estadísticos, en particular el Análisis de Componentes Principales (PCA), se han utilizado ampliamente en el reconocimiento 2D. El método PCA también se implementa para el reconocimiento 3D y se ha extendido simultáneamente a una combinación de mapas de profundidad y color. Una alternativa al PCA es el método de análisis discriminante lineal, en el que, a diferencia del PCA, un objeto (una persona determinada) no está especificado por una persona, sino por un conjunto de modelos (caras 3D).
Hasta ahora, todos los métodos estadísticos descritos en la literatura no han tenido en cuenta el efecto de los cambios en la forma de la superficie facial asociados con las expresiones faciales. Para minimizar este efecto, se han desarrollado enfoques basados en transformaciones isomórficas invariantes. Tales transformaciones no cambian la distancia entre dos puntos dados de la cara bajo la influencia de cambios faciales en la forma de la cara. Por ejemplo, se utiliza la transformación de la forma del rostro a la vista canónica.
Estos métodos utilizaron el algoritmo PCA en la etapa final de reconocimiento, que se aplicó a la forma canónica de la cara.
También existen métodos de reconocimiento basados en modelos faciales paramétricos. La idea clave del reconocimiento de modelos se basa en los llamados modelos 3D paramétricos, cuando la forma de la cara está controlada por un conjunto de parámetros (coeficientes) del modelo. Estos coeficientes describen la forma 3D de la cara y también pueden determinar el color (textura) de su superficie. El modelo así creado se proyecta luego sobre imágenes bidimensionales, a partir de las cuales se determinan los parámetros del modelo para la imagen dada.
La desventaja del método es su alta complejidad computacional y sensibilidad a la inicialización de los parámetros del modelo. Para superar estas dificultades se han desarrollado modelos compuestos por secciones independientes. Un método utiliza una superficie 3D de la cara promedio que, utilizando puntos antropométricos anatómicos en la cara, se deforma a una superficie 3D determinada. Los parámetros de deformación se calculan durante el proceso de reconstrucción 3D utilizando un modelo elástico, que se establecen como características distintivas de una cara determinada. Los datos iniciales son una nube de puntos desordenados obtenidos como resultado de la reconstrucción 3D del área facial. En este caso, un modelo de cara flexible 3D poligonal se ajusta a la nube de puntos (Figura 2).

principi postroeniya i preimushestva sistemi 3d raspoznav 3

Figura 2. Nube puntos y modelo de rostro flexible

El montaje de un modelo de cara flexible poligonal en 3D se basa en una analogía física: como una máscara elástica y flexible que se coloca sobre la cara, el modelo generalizado, bajo la influencia de fuerzas externas (atracción hacia una nube de puntos 3D) y fuerzas internas (tensión, elasticidad ), toma la forma del rostro de una persona específica. En este caso se realizan las siguientes operaciones:
Alineación primaria. Utilizando el algoritmo ICP (Punto más cercano iterativo, ICP), el modelo flexible se reduce a una nube de puntos sin deformación. La aproximación inicial viene dada aproximadamente por los centros de los ojos, la punta de la nariz y el centro de la boca.
Deformación del modelo para atraer puntos a la nube. Al resolver el problema numéricamente, cada cara del modelo flexible se considera como un elemento finito curvilíneo.
Para aumentar la precisión de la aproximación del modelo, se utiliza el método de subdivisión de superficies, en el que cada elemento finito se aproxima mediante la suma de triángulos.
Un sistema de ecuaciones lineales basado en las ecuaciones de movimiento de Lagrange del modelo físico se resuelve aproximadamente:

donde M es la matriz de masa del modelo flexible, D es la matriz de amortiguación, K es la matriz de elasticidad, fp son las fuerzas externas, P son las coordenadas generalizadas del modelo elástico.
Cuando el modelo elástico se deforma, la posición de los puntos antropométricos de la cara se conserva; por ejemplo, con un ajuste correcto, un vértice específico del modelo siempre corresponderá a la punta de la nariz, etc. El hecho de que las dimensiones iniciales del modelo flexible se basan en datos estadísticos sobre cientos de caras, así como en la acción de fuerzas elásticas internas basadas en distancias entre puntos antropométricos. En particular, la restricción estadística evita que la nariz se vuelva inverosímilmente ancha, ya que la fuerza elástica tiende a acercarla al ancho promedio de la población.
Así, entre los métodos modernos de identificación biométrica 3D de una persona, se utilizan métodos globales (la probabilidad de reconocimiento es del 90 al 96%), métodos estadísticos (93 al 100%) y métodos paramétricos que se caracterizan por una probabilidad de aproximadamente 88 –96%.

Calidad de imagen
La principal clave del éxito de un sistema de reconocimiento 3D, así como de los sistemas de reconocimiento bidimensional, es la calidad de la imagen resultante. Es necesario utilizar sensores de imagen de alta resolución: cámaras con una matriz de 1 a 5 megapíxeles, velocidades de cuadro de hasta 200 cuadros/s, rango dinámico de hasta 70 dB y relación señal-ruido de aproximadamente 60 dB.
Para un reconocimiento efectivo, es necesario que la imagen con la máxima calidad se transmita al servidor de reconocimiento. La compresión de la imagen transmitida en la primera etapa es inaceptable, ya que degrada la calidad de la imagen y, como resultado, se deteriora la precisión de la reconstrucción.
Para solucionar este problema, es sumamente importante utilizar lentes con alta resolución óptica (alrededor de 100 pares de líneas por mm) y baja distorsión (aberraciones geométricas, aberraciones cromáticas, distorsión).
Sincronización de instantáneas
Hoy en día, existen tres clases principales de sistemas que permiten obtener modelos 3D de objetos del mundo real:
escáneres láser;
sistemas con iluminación estructurada;
Sistemas basados en cámaras estéreo.
Sólo los dos últimos son adecuados para reconstruir objetos que cambian dinámicamente. Además, se impone un requisito estricto a las cámaras estéreo: el error de sincronización de la cámara debe ser al menos 100 veces menor que el tiempo característico de cambio del objeto.
Las cámaras están conectadas mediante un cable especial a través del cual se transmiten los impulsos de sincronización. Gracias a esto, las cámaras que miran a una zona de control graban todos los fotogramas de forma absolutamente sincronizada. En este caso, una cámara es la de control y el resto son subordinadas. Lo que es muy importante aquí es un alto grado de sincronización de imágenes y la garantía de que un objeto en movimiento no se moverá a una distancia que exceda el ancho de un píxel. Sólo entonces no aparecerá ningún píxel adicional o «mancha» en la imagen, lo cual es muy importante para el procesamiento posterior de la imagen.

Reconstrucción de modelos 3D
La alta velocidad de cuadros utilizada en los sistemas de cámaras brinda una nueva oportunidad única: en condiciones de comportamiento no cooperativo de los objetos, es posible realizar su detección confiable, seguimiento entre cuadros y obtener una secuencia continua de imágenes estéreo de estos objetos. De esta secuencia se seleccionan las imágenes con mejor calidad de imagen, que son las más adecuadas para reconstruir modelos 3D de objetos. La presencia de varias imágenes estéreo de un objeto desde diferentes ángulos de disparo permite aumentar la precisión de la reconstrucción.
En el nuevo sistema, es posible implementar métodos y algoritmos eficaces para compensar la falta de homogeneidad de la iluminación utilizando una serie de imágenes estéreo en las que el objeto se graba desde diferentes ángulos.
Como resultado, las imágenes resultantes son muy adecuadas para la reconstrucción tridimensional de objetos. La Figura 3 muestra el resultado de una reconstrucción 3D de una esfera ideal utilizando el algoritmo especificado como ejemplo de referencia. La resolución de las imágenes estéreo es de 2048 x 1536 píxeles, el radio de la esfera es de 80 mm. Se utiliza una resolución de subpíxeles de ¼ píxeles en imágenes estéreo. Como resultado, la desviación estándar de las coordenadas 3D de los puntos reconstruidos de la esfera ideal fue de 0,12 mm.

principi postroeniya i preimushestva sistemi 3d raspoznav 4

(a)

principi postroeniya i preimushestva sistemi 3d raspoznav 5

(b)

Figura 3. Reconstrucción de una esfera ideal. (a) – par estéreo de la imagen de la esfera. (b) reconstrucción 3D. El verde muestra los puntos reconstruidos ubicados en la esfera desde el lado donde están ubicadas las cámaras.
La Figura 4 muestra el resultado de la reconstrucción 3D y la máscara facial humana construida a partir de ella, que se utiliza para el reconocimiento.

principi postroeniya i preimushestva sistemi 3d raspoznav 6

Figura 4. Resultado de la construcción de una máscara facial 3D con textura
Para mejorar el rendimiento, se utiliza la plataforma informática CUDA en las tarjetas gráficas NVIDIA, como resultado de lo cual la velocidad de reconstrucción 3D para los valores de parámetros típicos de la La tarea de reconocimiento de rostros humanos en 3D es de 5 a 10 fotogramas/seg.

Seguridad en las grandes ciudades
Así, el reconocimiento 3D permite seguir el flujo de personas, construir modelos tridimensionales de sus rostros sobre la marcha y compararlos con valores de referencia almacenados en la base de datos. Además, es posible rastrear el movimiento de personas por la ciudad que aún no están incluidas en ninguna base de datos, sin identificarlas, pero con el objetivo de analizar su comportamiento e identificar signos sospechosos en este comportamiento.
Las tecnologías enumeradas anteriormente ya se utilizan en varios sistemas.

principi postroeniya i preimushestva sistemi 3d raspoznav 7

(a)

principi postroeniya i preimushestva sistemi 3d raspoznav 8

(b)

Figura 5. Resultado de la construcción de un modelo elástico para una superficie 3D. (a) – el resultado de la coincidencia con el modelo 3D, (b) – el modelo elástico construido, descrito por un conjunto de coeficientes básicos del modelo

principi postroeniya i preimushestva sistemi 3d raspoznav 9

Figura 6. Máscara facial triangulada utilizada en el algoritmo de reconocimiento 3D

principi postroeniya i preimushestva sistemi 3d raspoznav 10

Figura 7. Imagen anaglifo de una máscara facial, construida como resultado de un algoritmo de reconstrucción 3D. Para ver en volumen, debe usar gafas anaglifo: rojo – a la derecha, cian – a la izquierda

Principios de construcción y ventajas de un sistema de reconocimiento facial 3D.

Principios de construcción y ventajas de una cara 3D sistema de reconocimiento.

Написано Буров А.

Добавить комментарий