La videovigilancia requiere soluciones especiales para la compresión de datos.
Con la moderna tecnología de videovigilancia, grandes volúmenes de imágenes de alta definición y megapíxeles ya no son un problema en los sistemas de videovigilancia. Las redes Gigabit Ethernet y los discos duros de terabytes permiten que los sistemas CCTV se centren en la misión principal: recopilar información de seguridad de alta calidad. Sin embargo, esto requiere técnicas de compresión de datos modificadas. Los derivados de aplicaciones multimedia, como H.264 o MPEG-4, limitan las capacidades de los sistemas de videovigilancia. Parecen ser ahorros de costos porque reducen los requisitos de ancho de banda, pero en última instancia terminan aumentando el costo de los sistemas en general.
Los usuarios suelen suponer que si los productos de diferentes fabricantes funcionan con los mismos estándares, son comparables en términos de coste, calidad y flexibilidad. Éste es un error importante.
Las diferencias entre productos pueden ser dramáticas, incluso en un campo relativamente homogéneo como el multimedia. Serán aún más nítidos cuando se apliquen en áreas con propósitos significativamente diferentes: multimedia y circuito cerrado de televisión.
Estándares como H.264 dan libertad para desarrollar formas de comprimir datos, pero este desarrollo es costoso. Por ello, muchos fabricantes de sistemas de videovigilancia con mercados pequeños para sus productos intentan evitar nuevos desarrollos y suelen recurrir al uso de soluciones baratas del sector multimedia. Esas soluciones, si se intentan para fines para los que no fueron previstas, pueden resultar inadecuadas debido a una serie de concesiones. Esto significa que es posible que algunos fabricantes hayan estado engañando deliberadamente a los usuarios durante muchos años. Al mismo tiempo, ahorran costos de desarrollo y trasladan a los usuarios los problemas que podrían resolver fácilmente.
Lo que puede suceder si los requisitos específicos de las aplicaciones de videovigilancia no se tienen en cuenta al desarrollar productos de compresión de datos se puede ilustrar con el ejemplo del llamado problema de cadena de cuadros tipo P.
Problema de compresión entre cuadros
La compresión de datos de vídeo puede ser cuadro por cuadro, como MJPEG, así como compresión entre cuadros, como MPEG-2, MPEG-4 y H.264. Con el método MJPEG, cada cuadro de imagen individual se comprime independientemente de los demás. La compresión entre fotogramas implica dividir fotogramas en grupos. En un grupo, el primer cuadro es el marco de referencia y se codifica independientemente de los demás. Para el resto de fotogramas, denominados intermedios, sólo se codifican los cambios relativos a la referencia y a los anteriores.
Compresión de cuadros individuales y compresión con compresión entre cuadros. La formación de marcos intermedios en la mayoría de los productos se lleva a cabo únicamente en relación con los marcos de imágenes anteriores
Debido a que los cambios en las imágenes suelen ser pequeños de un cuadro a otro, la compresión entre cuadros genera pocos datos en comparación con los métodos de compresión de un solo cuadro, lo que reduce el costo de almacenar y transmitir video comprimido. Sin embargo, esto conlleva importantes desventajas. Dado que para los fotogramas intermedios solo hay información sobre los cambios, al decodificar todos los fotogramas que se utilizaron para formar estos cambios deben estar en la memoria. Esto aumenta el costo de la descompresión de datos. Si, por ejemplo, se pierde uno de los fotogramas a los que se hace referencia en un fotograma actual concreto, ya no se podrá realizar la descompresión completa sin distorsión.
Para las aplicaciones multimedia, las compensaciones asociadas con este problema suelen ser un poco incómodas: saltar hacia adelante o hacia atrás de un cuadro a otro en las grabaciones de DVD sólo es posible en grandes «pasos». Al transmitir imágenes de televisión en vivo en presencia de interferencias, es posible que se pierdan fotogramas de imagen, lo que provoca distorsiones en los fotogramas posteriores de la secuencia. Las transiciones de un canal a otro durante la transmisión de datos digitales están asociadas con una latencia relativamente larga. En el ámbito multimedia, no existe ninguna retransmisión televisiva en directo de imágenes reales, ya que los métodos de compresión utilizados permiten la pérdida de datos e introducen retrasos de hasta varios segundos. Pero mientras que en las aplicaciones multimedia estos inconvenientes pueden tolerarse, en la televisión de seguridad tales deficiencias son importantes y afectan la seguridad en su conjunto.
Problema de cadena de marco tipo P
Normalmente, la variante de compresión de datos de vídeo que utiliza el método de compresión entre cuadros funciona con cadenas de los llamados cuadros de tipo P. Los fotogramas de una secuencia o de un grupo de imágenes (GOP) forman una cadena de fotogramas que comienza con un fotograma de referencia, el llamado fotograma de tipo I, es decir, un fotograma independiente de otros fotogramas.
Formación de cadenas de fotogramas tipo P que contienen cambios en las imágenes
El impacto de la pérdida de fotogramas en fotogramas posteriores del P- tipo cadena de cuadros
En fotogramas de una cadena de fotogramas tipo P, sólo se comprimen y guardan los cambios en las imágenes. Con cada generación del siguiente marco de referencia, un marco de tipo I, comienza una nueva cadena de marcos, que se complementa con marcos de tipo P obtenidos calculando los cambios en el marco anterior correspondiente. Para descomprimir cada fotograma siguiente de dicha cadena de fotogramas tipo P, es necesario descomprimir todos los fotogramas anteriores de esta cadena, incluido el fotograma de referencia, el fotograma tipo I. Si se pierde algún cuadro de la cadena, todos los cuadros posteriores se pueden descomprimir solo con distorsiones. En este caso, pueden aparecer vacíos en el flujo de imágenes durante varios segundos, dependiendo de la velocidad de fotogramas y del número de fotogramas de la cadena.
Para su uso en CCTV, esta estructura en cadena de datos de video tiene fuertes aspectos negativos, ya que permite la posibilidad de pérdida de cuadros con la posterior aparición de artefactos, y para videovigilancia, la ausencia de distorsión con pérdida parcial de datos se considera una de los principales requisitos.
Si, al comprimir utilizando el método de compresión entre cuadros, un canal con una velocidad de cuadros reducida a la mitad se emite desde un canal de transmisión en vivo en escala real, entonces la salida serán imágenes distorsionadas con artefactos.
Si no es posible cumplir con este requisito, la implementación de muchas funciones típicas y la solución de los propios problemas de videovigilancia sólo serán posibles con restricciones. A continuación se muestran algunos ejemplos.
Transmisión en vivo de imágenes reales y su grabación en soportes con diferentes velocidades de cuadro
Esta es una de las formas típicas de reducir el coste de almacenar datos de vídeo, el llamado método Time-Lapse, que graba imágenes a una velocidad de fotogramas variable. Los efectos de ahorro conseguidos con el método son de tal magnitud que, en principio, no están disponibles al comprimir datos de vídeo. Por ejemplo, para documentar algunos procesos es suficiente una baja velocidad de 5 fotogramas por segundo. Sin embargo, a menudo existe la necesidad de transmitir simultáneamente imágenes en directo en tiempo real. Además, si tiene una cámara desde la que solo se recibe una transmisión de video, entonces grabar datos de video a una velocidad lenta simplemente diezmando cuadros cuando se usa la compresión usando el método MJPEG es difícil de implementar, y cuando se usa la compresión usando la compresión entre cuadros. El método generalmente no es factible. Un intento de hacer esto conducirá a la destrucción de las cadenas de fotogramas tipo P, que se necesitan en su totalidad para descomprimir los datos de vídeo.
Los compromisos típicos para solucionar este problema son grabar datos de vídeo a una velocidad de fotogramas superior a la requerida o ralentizar la reproducción de imágenes a una velocidad de fotogramas en la que sea posible la grabación simultánea. El resultado de la primera compensación es que, aunque se utiliza la compresión H.264, los costos de almacenamiento pueden ser mayores que los de MJPEG.
Análisis de vídeo del contenido de la imagen
El análisis de imágenes de vídeo se realiza a menudo en flujos de datos de vídeo a una velocidad de fotogramas lenta. En este caso, sólo se deben analizar aquellos fotogramas que correspondan a la velocidad de los procesos observados. Si la cámara tiene un ángulo de visión amplio y en su campo de visión sólo se producen movimientos lentos, un caudal de datos de vídeo de varios fotogramas por segundo puede ser suficiente para obtener información completa sobre estos movimientos. Si se tienen en cuenta estos factores, será posible reducir la carga del sistema y los costes generales del análisis de vídeo, ya que la descompresión de los datos de vídeo en los ordenadores host de los sistemas de gestión de vídeo supone una parte importante de estos costes.
Con la reducción de cuadros, el canal no podrá proporcionar las condiciones para cumplir con todos los requisitos del análisis de video al mismo tiempo que graba y transmite imágenes en vivo en tiempo real, y luego el algoritmo de análisis de video se verá obligado a analizar todos los cuadros. de la transmisión en vivo, incluso si no los necesita. Saltarse cualquier fotograma debido a la aparición de artefactos asociados durante la descompresión es, en principio, inaceptable, ya que en este caso el sistema percibirá las distorsiones en las imágenes como un movimiento en el fotograma, lo que provocará falsas alarmas. Es decir, si la velocidad de fotogramas en el canal sería suficiente para el análisis de vídeo (por ejemplo, 5 fotogramas por segundo), pero se ve obligado a descomprimir 25 fotogramas por segundo, entonces se produce una carga 5 veces mayor en el sistema durante la transmisión de datos. descompresión, lo que significa un correspondiente aumento de costes.
Transferir el análisis de vídeo directamente a la cámara no resuelve el problema. Por un lado, las capacidades informáticas de la cámara son limitadas en comparación con las del ordenador host y, por tanto, muchos métodos que requieren un alto rendimiento no son viables en absoluto. Por otro lado, incluso si están implementados en una cámara, puedes encontrarte con una gran dependencia del producto y de su fabricante.
Además del problema descrito aquí y las limitaciones asociadas con él, las cadenas de cuadros tipo P causan una serie de otros problemas que están unidos por una propiedad común: la necesidad de prohibir el salto arbitrario de cuadros, lo que dificulta o incluso imposibilita su implementación. ciertas funciones y cumplir ciertos requisitos, por ejemplo:
Creación de archivos de vídeo con la función de adelgazamiento en el tiempo (Fading Long Term Memory). Se supone que cuanto más antiguos son los cuadros de imagen, menos valiosos son y, por lo tanto, las grabaciones de video obsoletas se adelgazan eliminando ciertos cuadros para liberar y ahorrar memoria, mientras que la velocidad de cuadros de las grabaciones de video se reduce.
Exporta vídeos a una velocidad de fotogramas inferior a la que se almacenan en las grabaciones de vídeo, lo que suele ser necesario para reducir la información en condiciones específicas.
Altos requisitos para una cómoda reproducción de vídeo. Si avanzar/retroceder en fotogramas individuales, la cámara lenta sin saltos es relativamente fácil de implementar, entonces se imponen requisitos muy estrictos a la reproducción sincronizada de varios canales grabados para poder observar situaciones simultáneamente desde diferentes ángulos de visión. Además, las cadenas de fotogramas tipo P provocan saltos al buscar fotogramas, lo que afecta en gran medida a la comodidad de reproducción de imágenes.
Compresión adecuada de datos de vídeo para CCTV
Sin embargo, todavía es posible adaptar de forma óptima los métodos de compresión de datos de vídeo con compresión entre cuadros a los requisitos de la videovigilancia. Para garantizar que la compresión de fotogramas tipo P no dependa de la presencia de todos los fotogramas en la cadena, es necesario hacer referencia a parámetros estándar como los grados de libertad, que normalmente no influyen. Sin embargo, la implementación técnica de esta tarea está asociada a la intervención en el proceso de compresión de datos, lo que supone que en cada grupo de fotogramas de imagen (GOP), el cálculo de los cambios para cada fotograma tipo P debe realizarse en relación con la referencia. marco, es decir, el marco tipo I, y no al marco anterior del mismo tipo P con formación de cadena, como lo establece la norma. Con esta implementación del proceso de compresión, los fotogramas tipo P en un grupo de fotogramas de imagen no están vinculados en una cadena y la pérdida de fotogramas individuales no afectará la descompresión de los fotogramas posteriores.
El estándar H.264 permite la creación de tales estructuras, pero no se utilizan en el campo multimedia, ya que este enfoque conduce a una menor eficiencia de la compresión de datos, velocidades de bits más altas y mayores costos asociados para la transmisión o almacenamiento de datos. .
Compresión de datos de vídeo utilizando el método de compresión entre cuadros con cuadros tipo P no encadenados
En CCTV, esta desventaja se ve ampliamente compensada por la ganancia en flexibilidad y la reducción de costos alternativos, por ejemplo, cuando se graba a una velocidad de fotogramas lenta (Time-Lapse). El producto de compresión de datos ideal es aquel que brinda al usuario la libertad de elegir entre objetivos contradictorios de flexibilidad y eficiencia de compresión. Estos productos no sólo ya existen, sino que también se ofrecen en el mercado.
Un parámetro funcional importante de estos métodos de compresión, especialmente modificados para videovigilancia, es la capacidad de controlar la generación de fotogramas de referencia, fotogramas tipo I (Instantáneos-Frames), sin retrasos. Sin esta capacidad, muchos procesos de videovigilancia experimentan largos retrasos porque los cambios en la calidad o resolución de la imagen sólo son posibles cuando aparece un nuevo marco de referencia, un marco tipo I, en el flujo de datos. Si tiene que esperar a que se inicie un nuevo grupo de imágenes (GOP), el control de todo el equipo y el proceso se vuelve lento o incluso se puede perder información esencial, como cuadros de alarma.
Resultado
No tiene sentido utilizar la compresión de datos para ahorrar alrededor del 10% del ancho de banda si el equipo funcionará con una resolución innecesaria y una mayor velocidad de bits. O la falta de flexibilidad para acceder a los marcos de imágenes reducirá en gran medida la capacidad de utilizar el sistema de forma eficaz. Al realizar cambios relativamente simples en las técnicas de compresión de datos, se pueden lograr mejoras significativas y compensaciones aceptables entre los objetivos conflictivos de costo y funcionalidad.
Los productos de compresión de datos modificados para la videovigilancia desde este punto de vista son superiores a los productos estándar tomados del campo multimedia. Proporcionan el mejor equilibrio entre costo y flexibilidad.