Tecnologías multimedia y CCTV.
Prefacio
Actualmente, cada vez más sistemas CCTV se están volviendo digitales. No es de extrañar que las tecnologías de procesamiento de vídeo existentes se utilicen ampliamente. ¿Qué tan justificado es esto?
Los especialistas de Geutebrueck, que produce dispositivos de grabación de vídeo digital desde hace más de 15 años, no comparten la opinión generalmente aceptada sobre la aplicabilidad de las tecnologías multimedia para resolver los problemas de los sistemas CCTV. La postura de Geutebrueck la explica el Dr. Matthias Döring
“A menudo nos hacen preguntas
-¿Qué nos hace pensar en nuestras propias soluciones? ¿Por qué hacemos lo que hemos estado haciendo durante más de 10 años?
— ¿Por qué no podemos simplemente utilizar tecnologías multimedia y de TI para comprimir, almacenar y transmitir imágenes, como lo hacen la mayoría de nuestros competidores?
-¿Por qué necesitamos nuestro propio algoritmo MPEG4CCTV y por qué no basta con integrar los chips MPEG4 y H.264 existentes en nuestros productos?
-¿Por qué no utilizamos bases de datos estándar como Oracle y MS SQL, por qué desarrollamos nuestro propio servidor de base de datos para almacenar archivos de vídeo?
-¿Por qué no utilizamos tecnologías Multicast y WEB para la transmisión de imágenes, sino que implementamos nuestro propio protocolo de transmisión?
-¿Por qué “inventamos” nuestro propio formato de exportación GBF? ¿Los formatos AVI, FLV y MPEG no son lo suficientemente buenos?
-¿Qué diferencia tanto a los sistemas CCTV de otras aplicaciones, como las multimedia, para justificar la costosa investigación y desarrollo que hemos estado realizando durante los últimos 10 a 12 años?
-¿Habrá algún día un estándar “digital” para CCTV, similar al PAL/NTSC de los “antiguos” días analógicos?
Si has estado en Inglaterra, estarás familiarizado con el problema del enchufe inglés, que no encaja en los enchufes de los aparatos eléctricos fabricados en Europa. A veces incluso conseguía pegar uno dentro del otro, aunque dañándolos ligeramente. ¡Y funciona!
El principal problema es la compatibilidad de los requisitos de CCTV con las capacidades de las tecnologías multimedia. La introducción de tecnologías multimedia en los productos CCTV conduce a compromisos inaceptables. CCTV requiere enfoques y soluciones especiales para cumplir con sus requisitos”.
El Dr. Doering proporciona nueve argumentos para respaldar su posición.
Argumento 1
CCTV y multimedia tienen poco en común
Multimedia suele significar televisión (emisión, móvil, Internet), DVD, videoconferencias, cámaras web y otras aplicaciones bien conocidas por todos.
CCTV — Se trata principalmente de vigilancia, incluido CCTV, control y análisis de procesos tecnológicos, verificación del acceso del personal a áreas protegidas.
Tanto en Multimedia como en CCTV, la fuente de información es una imagen en movimiento obtenida mediante una cámara de televisión. Puede ir acompañado de información sonora y textual. Los especialistas que trabajan en ambas áreas resuelven el mismo problema: cómo almacenar y presentar esta información a los usuarios.
Pero a pesar de las mismas fuentes de datos, ambas tecnologías difieren significativamente en los fines de su uso, lo que lleva al hecho de que los sistemas reales son completamente diferentes.
Argumento 2
Los propósitos del procesamiento de imágenes son diferentes
En multimedia las imágenes mismas tienen un propósito de procesamiento de video, producto final.
El requisito general y fundamental del multimedia es que la imagen debe ser de la más alta calidad que se pueda obtener desde la plataforma elegida que se esté utilizando. Por supuesto, el concepto de “mejor calidad” es diferente para los distintos productos multimedia: una imagen multimedia en la pantalla de un teléfono móvil no se puede comparar con una imagen de cine en casa. Pero en todos los casos sigue existiendo el deseo de mejorarlo tanto como sea posible, en la medida en que la tecnología lo permita.
Dado que las imágenes son el principal producto multimedia, también es comprensible que se quiera conservar todas las imágenes. Perder o eliminar algunas imágenes degrada el producto multimedia final. ¿Se beneficiaría la película si se eliminaran algunas imágenes?
La televisión de seguridad tiene un propósito completamente diferente, y esto a menudo se olvida. Al discutir sobre cuestiones tecnológicas, perdemos lo verdaderamente valioso que está detrás de todas las tecnologías: nuestra tarea — seguridad. Nuestro objetivo no son las imágenes en sí, ni el almacenamiento de todas las imágenes, sino extraer de ellas la información necesaria. Deberíamos estar orgullosos si logramos deshacernos del personal innecesario, porque nos quitan recursos y nos hacen desperdiciar dinero.
La calidad de las imágenes utilizadas con fines de seguridad debe ser tan alta como sea necesaria.
Por ejemplo, tenemos un detector de movimiento por vídeo que genera una alarma tan pronto como aparece un objeto en movimiento en el área de vigilancia. No tiene sentido instalar una cámara de televisión de alta calidad que permita ver los detalles; esta información no se utilizará para obtener el resultado
Así, en la televisión de seguridad las imágenes son secundarias y lo principal es extraer de ellas información relacionada con la seguridad.
Además, debemos evitar imágenes innecesarias. Imaginemos una cámara de televisión situada a la entrada de un aparcamiento. No tiene sentido dejar imágenes de una carretera vacía en el archivo: no tienen ningún valor.
Argumento 3
Las imágenes multimedia y CCTV difieren en sus características
Veamos dos ejemplos.
El primero son fotogramas de una película.
La segunda es una imagen de una cámara de televisión situada en el aparcamiento. Nueve de cada diez cámaras instaladas en sistemas CCTV muestran aproximadamente lo mismo.
Veamos las principales diferencias:
Multimedia
alta dinámica, muchos objetos en movimiento en el encuadre
cambios frecuentes de escenas y ángulos
cambios rápidos en la iluminación
CCTV
poco o ningún movimiento
escena fija
cambios lentos (por ejemplo, día-noche, estaciones)
Normalmente no pasa nada en CCTV. Por el contrario, en multimedia el movimiento es un estado normal.
En CCTV, el movimiento y el cambio son la excepción. La tarea de CCTV es el análisis de los cambios de fotograma.
Argumento 4
¿Qué tan grande es la proporción de información útil?
La respuesta a esta pregunta en el caso de la multimedia es muy sencilla: 100%. No se puede cortar un solo fotograma de una película sin degradar su calidad. No querrás perder ni un solo fotograma de la videoconferencia que estás realizando.
En CCTV la situación es completamente diferente. De media, más del 90% de las imágenes son basura, fotogramas que no son necesarios para realizar tareas de seguridad. El 10% restante son “imágenes sospechosas” que requieren análisis o atención del operador. Menos del 1% del total son imágenes reales “alarmantes”
Por tanto, la proporción total de información útil en el material de vídeo CCTV es muy pequeña. La presencia de imágenes “extra” reduce su valor desde el punto de vista de las tareas de seguridad.
El almacenamiento y la transmisión de imágenes innecesarias también conlleva costes de material injustificados. Por ejemplo, con un archivo de 10 TB que cuesta unos 5.000 euros, almacenar absolutamente todos los datos de vídeo recibidos de una cámara CCTV significa que el 90% (4.500 euros) se desperdician.
Argumento 5
La compresión multimedia está cerca del límite teórico. Los métodos de filtrado de contenidos utilizados en CCTV superan esto
¿Qué posibilidades existen para la compresión de vídeo en multimedia?
Un ejemplo sencillo: la imagen de un aparcamiento.
Una hora de vídeo sin comprimir ocupa 73 GB (con una resolución de 704*576, 8 bits por muestra, formato de codificación de colores 4:2:2, 25 fotogramas por segundo). Si comprime este video usando el algoritmo M-JPEG, le quedarán aproximadamente 5-6 GB. Aplicación de un algoritmo con compresión entre cuadros — MPEG4 o H.264: dará como resultado aproximadamente 1 GB. En el primer caso, la compresión se logra eliminando la redundancia espacial contenida en el flujo de imágenes y, en el segundo caso, también eliminando la redundancia temporal.
Se han estandarizado los algoritmos para eliminar dicha redundancia.
La relación de compresión que obtuvimos en el segundo caso, igual a 70, es buena para multimedia, pero no suficiente para CCTV, especialmente si el sistema tiene entre 200 y 300 cámaras. Incluso el mejor estándar H.264 actual probablemente no proporcione 1 GB, sino 500 MB de vídeo comprimido por hora. Pero todavía es demasiado.
Volvamos a nuestro ejemplo de estacionamiento. Para fines de CCTV, basta con ver únicamente qué vehículos circulan por allí. El análisis del segmento de vídeo seleccionado para el ejemplo mostró: si selecciona solo fotogramas que contienen movimiento, quedarán 20 MB de información útil. El resultado es una relación de compresión que parece exótica: 3500. Y si sólo nos interesan las personas que entraron al estacionamiento (es decir, situaciones sospechosas), entonces solo quedan 2 MB.
El método de filtrado de contenidos aplicado nos permite conseguir una enorme compresión, algo imposible en el caso de multimedia. No sólo eliminamos la redundancia espacial y temporal en la información del vídeo, sino que también eliminamos fotogramas irrelevantes, y el efecto de esto es mucho mayor.
Los métodos de filtrado de contenidos no están estandarizados y cada fabricante desarrolla los suyos propios.
Argumento 6
¿Se pueden utilizar formatos multimedia en CCTV?
Los formatos de vídeo ampliamente utilizados (MPEG, etc.) tienen las siguientes características:
Realizar grabación en un solo canal
Diseñado para una navegación precisa en la escena (fragmento).
Tienen parámetros de compresión fijos (resolución de píxeles, calidad, velocidad de fotogramas, tipo de codificador). Por ejemplo, si necesita grabar vídeo a 2 fotogramas por segundo, muchos códecs multimedia no admiten esta velocidad.
Tienen limitaciones en el tamaño del archivo de vídeo (por ejemplo, 1 GB para DVD)
Tienen poca capacidad para incrustar información adicional (metadatos). Estos datos podrían ser, por ejemplo, información sobre alarmas.
¿Qué se requiere para CCTV?
Grabación multicanal con capacidad de reproducir múltiples canales de vídeo simultáneamente
Velocidad, resolución y calidad variables, controladas según las necesidades del sistema
Posicionamiento preciso en cada cuadro
Indexación mediante metadatos (es decir, la capacidad de buscar imágenes utilizando metadatos integrados: parámetros de alarma, número de cuenta bancaria, código de barras, etc.)
Autenticación y protección de datos de vídeo contra intervenciones no autorizadas Tamaños de archivos en el rango de terabytes
Argumento 7
¿Son los reproductores multimedia adecuados para CCTV?
Los reproductores multimedia se utilizan ampliamente. Imaginemos qué sucede si utiliza alguno de estos reproductores con fines de CCTV.
Un reproductor multimedia normalmente tiene las siguientes propiedades:
Reproduce sólo un canal a la vez.
Al avanzar y retroceder a través de una grabación de vídeo (rebobinar), el movimiento es desigual. Normalmente, rebobinar funciona mucho peor.
No existe un posicionamiento preciso cuadro por cuadro.
Reproductores especializados para CCTV:
Reproducen muchos canales de forma simultánea y sincrónica.
Han desarrollado medios de navegación dentro del archivo de vídeo, con movimiento uniforme hacia adelante y hacia atrás a una velocidad arbitraria y posicionamiento en cualquier fotograma.
Le permite cambiar automáticamente los parámetros de la pantalla, por ejemplo, en caso de una alarma
Cabe señalar que las amplias capacidades de los reproductores de CCTV especializados se deben precisamente a la negativa a utilizar formatos multimedia estándar.
Argumento 8
La multimedia, por regla general, llega tarde
Me gustaría llamar la atención sobre el aspecto del tiempo.
El procesamiento de imágenes digitales lleva tiempo. La optimización de los algoritmos de compresión provoca mayores retrasos en la codificación y decodificación de información. Estos retrasos no pueden eliminarse simplemente aumentando la potencia de procesamiento; ocurren debido a una cierta estructura de las tramas transmitidas.
¿Cuán críticos son los retrasos asociados con el uso de una tecnología de procesamiento de video en particular?
Las aplicaciones multimedia, por regla general, se caracterizan por los siguientes parámetros de tiempo:
Retraso aceptable al transmitir una secuencia de video: varios segundos
Retraso aceptable al cambiar de imagen (cambiar canales de video): varios segundos
Cambios raros y lentos en los parámetros de compresión a lo largo del tiempo.
Para las aplicaciones de CCTV la situación es completamente opuesta. La aparición de retrasos, incluso en una fracción de segundo, perjudica significativamente las capacidades del sistema:
Al transmitir «video en vivo», el retraso impide el control normal de las cámaras PTZ de alta velocidad.
Cuando se transmiten cuadros de alarma. retrasado, se pierde su relevancia
El retraso al cambiar de escena y de canal ralentiza el trabajo del operador
Requiere cambios rápidos en los parámetros de compresión dependiendo de la situación (por ejemplo, cuando ocurren alarmas).
¡Podemos decir que los retrasos en la información de video en el sistema CCTV anulan sus propiedades útiles y lo privan de su derecho a existir!
Argumento 9
Los modelos de distribución de información en multimedia y CCTV son diferentes
Los modelos de distribución de información en un entorno multimedia y CCTV tienen una diferencia obvia.
En el primer caso, la información procedente de una o varias fuentes de información se transmite a un gran número de consumidores. El término “replicación” encaja aquí. Los consumidores de información, por regla general, no pueden influir de ningún modo en la fuente de información.
En el segundo caso, el número de fuentes de información en vídeo es grande y supera con creces el número de sus consumidores. A esto se le puede llamar «recopilación de información». Los consumidores del sistema CCTV no sólo reciben información, sino que también influyen activamente en el sistema: cambian la configuración de la pantalla, confirman alarmas y controlan las cámaras PTZ.
Las diferencias entre ambos modelos de distribución de información se presentan en la tabla:
Parámetro del sistema CCTV multimedia Número de canales de vídeo Pequeño Importante Número de consumidores de información Muy grande Varios Número de canales de vídeo transmitidos a un consumidor en cada momento Uno Muchos Requisitos de interactividad Bajo Alto Retrasos aceptables en la transmisión de información Grande Muy pequeño Requisito de funcionamiento ininterrumpido Ninguno Muy importante Como podemos ver, ¡estas características no tienen nada en común!
Los estándares existentes se crearon con fines multimedia. Es imposible utilizarlos en CCTV sin modificaciones radicales. Las intervenciones cosméticas no ayudarán aquí.
El deseo de reducir los costos de desarrollo no es un argumento suficientemente fuerte para aceptar el uso de tecnología inadecuada. Sin embargo, muchos fabricantes líderes lo apuestan. ¿Es realmente posible imaginar un televisor, un mando a distancia, una videocámara y una cámara en un teléfono móvil como un sustituto completo de un sistema de CCTV profesional?
La paradoja es que la mayoría de las tecnologías multimedia (compresión, transmisión y almacenamiento) no sólo no son soluciones óptimas para CCTV, sino que crean problemas internos, ya que se basan en principios que no son aplicables a CCTV. Todo está patas arriba. Disponemos de capacidades tecnológicas multimedia estandarizadas y estamos intentando adaptarlas a nuestras necesidades. ¿No sería mejor, basándose en los requisitos de CCTV, desarrollar un estándar que les corresponda?
A la pregunta al comienzo del artículo: ¿algún día se inventará un estándar “digital” para CCTV?, la respuesta puede ser la siguiente:
Siempre que las disposiciones de los estándares ignoren los requisitos básicos de CCTV, no hay perspectivas visibles para la creación de un estándar integral, o el resultado dependerá de los desarrollos propios de cada empresa.