Análisis de vídeo: mitos y oportunidades reales.
Análisis de vídeo: mitos y oportunidades reales
El rápido desarrollo del mercado de la videovigilancia digital está contribuyendo a la difusión de los sistemas inteligentes de análisis de vídeo. Por el momento, todo lo relacionado con las capacidades reales del análisis de vídeo está envuelto en oscuridad y hay muchas más preguntas que respuestas. En gran medida, gracias a la información de marketing, las expectativas de los clientes superan las capacidades reales de los sistemas de análisis inteligente de información de vídeo. En este artículo intentaré aclarar un poco la situación.
Por el momento, para la mayoría de los especialistas ha quedado claro que el análisis de vídeo es un área muy prometedora, es el futuro. Hay muchas razones para el desarrollo de este tipo de sistemas. Hay estudios que demuestran que luego de 12 minutos de monitoreo continuo, el operador comienza a perderse hasta el 45% de los eventos. Y hasta el 95% de los eventos potencialmente alarmantes pasarán desapercibidos después de sólo 22 minutos de observación continua. No hay nada sorprendente en estos resultados, porque las imágenes de las cámaras de seguridad son extremadamente aburridas para los humanos. Por tanto, prácticamente no hay dudas sobre la validez del uso de la analítica de vídeo. Por otro lado, surge la pregunta: ¿cuál es la funcionalidad real de este tipo de sistemas? ¿De qué son realmente capaces y de qué no?
Existe una lista de tareas clásicas que el análisis de vídeo realiza con éxito, lo cual se confirma con resultados prácticos. Enumeraré los más populares:
— reconocimiento de matrículas;
— reconocimiento facial;
— detección de eventos (cruce de línea, entrada a un campo, salida de un campo, objeto abandonado o retirado, etc.).
También me gustaría citar varias tareas que el análisis de vídeo no puede realizar hoy en día:
— detección de alarma en condiciones de visibilidad extremadamente pobre;
— detección de armas ocultas;
— detección de “comportamientos sospechosos”;
— etc.
La eficacia de resolver cada uno de los problemas anteriores depende significativamente de muchos factores.
En cuanto al reconocimiento de matrículas, se ha trabajado bastante en este ámbito y también hay mucha información. No me detendré en este tema en detalle en este artículo, solo diré que hay recomendaciones detalladas para instalar la cámara, elegir una lente, sabemos el número mínimo de píxeles que debe ocupar una matrícula en el encuadre, etc. Estos sistemas están bastante extendidos en la práctica; muchos desarrolladores rusos y extranjeros ofrecen con éxito sus soluciones para el reconocimiento de matrículas.
El reconocimiento facial es, por supuesto, un tema para otra discusión. En mi opinión, de todos los sistemas mencionados, estos son los más caprichosos. Los requisitos de iluminación, el tamaño y la posición del rostro en el encuadre y la calidad de la base de datos del rostro son muy críticos, por lo que es muy difícil aplicar dichos sistemas. Sin embargo, esto no significa que sean inútiles y poco prometedores. Los sistemas de análisis de vídeo se están desarrollando muy rápidamente y es difícil sobreestimar la demanda de sistemas de reconocimiento facial.
Fig. 1. Mitos sobre las capacidades del análisis de vídeo: |
Fig. 2. Tareas típicas de análisis de vídeo: Fila superior izquierda: seguir una ruta derecha: cruzar una línea en una dirección determinada fila inferior a la izquierda – seguimiento de la dirección del movimiento entre la multitud a la derecha – el resultado intermedio del procesamiento la imagen de la izquierda |
Hoy en día existe un debate bastante amplio sobre si la analítica de vídeo debe centralizarse o funcionar directamente en la propia cámara de vídeo. Las ventajas y desventajas de cada opción son obvias. Por un lado, los procesadores de servidor tienen un rendimiento significativamente superior a los procesadores instalados dentro de las cámaras de vídeo IP. El desarrollo de software de análisis de vídeo que se ejecuta de forma centralizada en un servidor es más sencillo y las capacidades son mucho más amplias.
Implementar análisis a nivel de cámara tiene una serie de ventajas:
— La capacidad de trabajar con una imagen «en vivo» sin comprimir recién leída de la matriz.
— Ausencia de un punto de falla centralizado (si una cámara falla, las demás continúan funcionando, pero si el servidor que procesa el video de un grupo de cámaras se detiene, el proceso de análisis de video se detiene para todo el grupo).
— ; La capacidad de reducir el tráfico de red y construir sistemas distribuidos.
Las empresas de software de servidor suelen abogar por el análisis de vídeo centralizado, pero los beneficios del análisis de vídeo a nivel de cámara son innegables. Con el desarrollo tecnológico de las cámaras de vídeo IP, sus capacidades analíticas se amplían constantemente. Hoy en día ya es posible construir un sistema de videovigilancia inteligente en el que no hay ningún ordenador y todo el trabajo analítico se realiza mediante cámaras «inteligentes».
Fig. 3. Configuración de color del objeto detectado |
En el futuro, cuando hablemos de análisis de vídeo, nos referiremos al análisis de vídeo que funciona directamente en la cámara. Un ejemplo de una implementación de este tipo de un sistema de análisis de vídeo es IVA (Intelligent Video Analytics), desarrollado por Bosch Security Systems.
Ahora echemos un vistazo más de cerca a la detección de eventos. Me gustaría enfatizar que estamos hablando específicamente de análisis de video inteligente, y no de un detector de movimiento banal.
Fig. 4. Calculadora de lentes de IVA |
La gama de eventos (las tareas de un detector inteligente) está en constante expansión. Si hace relativamente poco tiempo las posibilidades se limitaban a la detección de movimiento en determinadas zonas de la imagen, era posible filtrar según el tamaño del objeto, pero ahora la lista de tareas que se pueden resolver mediante el análisis de vídeo es mucho más amplia.
Esta no es una lista completa de eventos que se pueden detectar mediante sistemas de análisis de video. En cuanto a la gama de aplicaciones prácticas, es increíblemente amplia. Esto incluye seguridad perimetral, control del tráfico, seguridad del transporte, sistemas urbanos seguros, etc. Gracias a la capacidad de crear eventos de alarma complejos basados en combinaciones de otros simples, las posibilidades para diseñadores e instaladores se vuelven casi ilimitadas.
Cabe señalar que las posibilidades de filtrado de eventos también se han ampliado significativamente. Además de las capacidades de filtrado habituales basadas en características geométricas (tamaño, área, relación de aspecto), es posible filtrar por dirección, velocidad de movimiento, presencia de una cabeza, así como por el color del objeto detectado. Por ejemplo, el sistema de análisis de vídeo inteligente IVA es capaz de detectar un objeto por color, ¡que puede representarse mediante una combinación de hasta 5 colores diferentes!
Es necesario comprender que tanto la probabilidad de detección adecuada de eventos alarmantes como el porcentaje de falsas alarmas dependen significativamente de una serie de factores, tales como: la elección de la ubicación óptima para la cámara, la selección correcta de la óptica, la calidad de la señal de vídeo (si es imposible examinar algo visualmente, la detección también es imposible), el tamaño relativo del objeto en el cuadro, etc. Así, la correcta selección del equipo (videocámara, lente), la elección de la ubicación óptima para instalar la cámara, el uso de iluminación (IR o luz visible), si la observación se realiza en condiciones difíciles en términos de iluminación, hacen permite lograr la máxima probabilidad de detección correcta de eventos de alarma y minimizar la frecuencia de falsas alarmas. Nos gustaría enfatizar que es imposible lograr una tasa de detección del 100 % y un 0 % de falsas alarmas.
Como se mencionó anteriormente, la tasa de detección depende de varios factores.
Bosch Security Systems ha desarrollado la llamada Calculadora de lentes IVA, una herramienta que permite a los diseñadores e instaladores seleccionar la ubicación óptima para la instalación de la cámara, seleccionar una lente y evaluar la llamada probabilidad de detección POD.
El valor POD final depende de los parámetros DCRI — Detección, Clasificación, Reconocimiento e Identificación (detección, clasificación, reconocimiento e identificación) — clasificación en la terminología del Ejército de EE. UU. (Laboratorio de visión nocturna del Ejército de EE. UU., John Johnson). A su vez, el valor DCRI depende del valor VSH (altura de pantalla vertical), un valor porcentual que muestra la altura relativa del objeto (en relación con la altura del marco). Es decir, dependiendo de la altura del objeto detectado en el marco, es posible clasificarlo en terminología DCRI. Determinar si será detectado, clasificado, reconocido o identificado. Dependiendo de esto, ya se estima el POD: probabilidad de detección. El nivel de ruido de fondo también importa. Al elegir una ubicación para instalar la cámara, es recomendable minimizar tanto como sea posible el área de espacio que cae en el marco detrás del objeto de detección. Una de las condiciones más importantes para el correcto funcionamiento de la analítica de vídeo es la calibración precisa de la cámara IP.
El sistema de análisis de vídeo debe informar con la mayor precisión posible a qué altura está instalada la cámara, a qué distancia focal está instalada la lente, el ángulo de la cámara, etc. Dado que el análisis de vídeo opera solo en píxeles, el sistema debe comprender claramente si 100 píxeles horizontales son un metro o cinco.
El uso de una herramienta como IVA Lens Calculator le permite no solo seleccione de manera óptima el equipo y determine la ubicación de instalación de la cámara de video, pero también evalúe la probabilidad de detección en una parte determinada del espacio.
Otra función importante del análisis de vídeo es la capacidad de buscar inteligentemente en el archivo. Durante el funcionamiento del sistema de análisis de vídeo, junto con la transmisión de vídeo, se transfieren continuamente metadatos al almacenamiento (datos de servicios especiales que describen continuamente eventos potencialmente alarmantes en el campo de visión de la cámara, contornos de movimiento, trayectorias, etc.). Los metadatos se sincronizan con el archivo de video y le permiten ahorrar significativamente tiempo al buscar el archivo. La búsqueda se puede realizar por evento, cuyos criterios se establecen del mismo modo que se configura el detector en tiempo real.
Consideremos un ejemplo:
Deje que la cámara de vídeo monitoree la situación del tráfico y configúrela para detectar alarmas en tiempo real. Los acontecimientos alarmantes son todos los cruces de vehículos de una línea imaginaria trazada sobre una línea de señalización real que separa los flujos de los sentidos contrarios. Se recibió información de que por este tramo de la vía circulaba un automóvil robado. Se conocen el tiempo aproximado de viaje y, digamos, el color del coche. Dado que no violó las normas de tránsito y no cruzó una línea de señalización continua, su aparición en el encuadre no fue un evento alarmante. Sin embargo, dado que la función de análisis de vídeo está activada y los metadatos se han registrado en el archivo, será posible encontrar rápidamente todas las apariciones de automóviles de un color determinado en un tramo determinado de la carretera, a pesar de que no se haya especificado el color. a priori.
Ver videos archivados no es menos aburrido que monitorear imágenes de videos de seguridad en tiempo real. La probabilidad de que el operador se pierda tal o cual evento durante la visualización es bastante alta. Hoy en Rusia no existe la profesión de operador de videovigilancia calificado. Esto no se enseña en ninguna parte. En la mayoría de los casos, esta funcionalidad está asignada a los guardias de seguridad. Por supuesto, la capacidad de diferentes personas para monitorear efectivamente la situación en las pantallas de los monitores varía significativamente. En mi opinión, construir sistemas que utilicen análisis de vídeo aumenta significativamente la eficiencia de todo el sistema de videovigilancia en su conjunto.
Como última palabra, me gustaría decir que, en mi opinión, la videoanálisis es una poderosa herramienta en manos de un operador de un sistema de videovigilancia. A pesar de que el nivel de automatización en los sistemas de seguridad puede ser muy alto, el análisis de vídeo hoy en día no es capaz ni pretende reemplazar completamente al operador. Es difícil para una persona monitorear continuamente cientos de cámaras, ¡pero puede tomar rápidamente la única decisión correcta!
Fuente: «Security Revista Algoritmo» №5, 2010
Добавить комментарий