Métricas objetivas para evaluar la calidad de los códecs de vídeo
EN BUSCA DE UN PUNTO DE APOYO Una de las tendencias en el mercado de los televisores de seguridad es la variedad de códecs de vídeo presentes en ellos. Casi todos los desarrolladores de hardware y software de CCTV se esfuerzan por desarrollar sus propios algoritmos de compresión de video únicos y proclamar su superioridad sobre los demás. Dado que las declaraciones del desarrollador pueden no siempre corresponderse con la realidad, el consumidor necesita una evaluación de un experto independiente sobre la calidad de los códecs de vídeo. La evaluación de expertos suele ser realizada por laboratorios y comunidades científicas de renombre basándose en dos métodos principales: pruebas subjetivas y el uso de métricas de calidad objetivas. Durante las pruebas subjetivas, a un grupo de expertos se les presentan fragmentos de vídeo comprimidos con varios códecs y califican la calidad de estos fragmentos en una escala determinada. A continuación, se procesan de una forma u otra las valoraciones de los expertos y se obtiene un indicador de calidad integrado, por ejemplo MOS (puntuación media de opinión). La ventaja de este método es la facilidad de interpretación de las estimaciones obtenidas, ya que están directamente relacionadas con la percepción humana. Desventajas importantes son la dependencia de los resultados de la experiencia de los expertos, así como la fundamental irreproducibilidad de los resultados. Este último inconveniente significa también que los resultados de las pruebas realizadas en dos empresas competidoras serán diametralmente opuestos. Por tanto, la cuestión de la fiabilidad de las valoraciones subjetivas queda abierta. Por supuesto, al consumidor le gustaría tener estimaciones más fiables de la calidad de los códecs de vídeo. En este caso, es deseable que estas estimaciones tengan la propiedad de repetibilidad. Y aquí entran en juego métricas objetivas de calidad de vídeo, en cuyo caso no sólo otros expertos, sino también el propio consumidor pueden repetir todos los experimentos. El proceso de prueba en sí también es muy tecnológico: presione un botón y obtenga un resultado. Este artículo analizará las métricas objetivas utilizadas para evaluar la calidad del vídeo, mostrando las ventajas y desventajas que surgen al utilizar estas métricas problemáticas. Pero antes de pasar a las métricas en sí, es necesario decir algunas palabras sobre las características de la percepción humana del video, ya que estas características afectan tanto la construcción de algoritmos de compresión como las métricas objetivas de evaluación de la calidad.
CARACTERÍSTICAS DE LA VISIÓN HUMANA El conocimiento de las características de la visión humana nos permite construir métricas objetivas para evaluar la calidad del video que se correlacionan más estrechamente con las evaluaciones subjetivas. Las propiedades más importantes de la visión humana incluyen las siguientes. Sensibilidad a los cambios en el brillo de la imagen. La visión humana es capaz de adaptarse a una amplia gama de brillo, y dentro de cada rango una persona es capaz de distinguir ciertos niveles de brillo. Esta resolución no depende de la diferencia en los niveles de brillo, sino de la relación entre esta diferencia y el valor medio de brillo, es decir, del contraste. La sensibilidad a la frecuenciade la visión humana se manifiesta en el hecho de que una persona es mucho más susceptible a los ruidos de baja frecuencia que a los de alta frecuencia. Esto se debe a la desigualdad de las características de amplitud-frecuencia del sistema de visión humano. Característica de la percepción del coloruna persona es que algunos colores pueden coexistir en su percepción (por ejemplo, el amarillo rojizo se siente como naranja), mientras que otros no (colores opuestos). Es esta característica la que se utiliza al representar imágenes con varios esquemas de diferencia de color. Efecto de enmascaramiento de dominio espacialConsiste en aumentar el umbral de detección de una señal de vídeo en presencia de otra señal de características similares. Por tanto, el ruido aditivo es mucho más notorio en las zonas suaves de la imagen que en las zonas de alta frecuencia, es decir, en este último caso se observa enmascaramiento. El efecto de enmascaramiento es más fuerte cuando ambas señales tienen la misma orientación y ubicación. El efecto del enmascaramiento en el dominio del tiempo es que, debido a la inercia de la visión, una persona no detecta inmediatamente un cambio en el brillo de la escena de la secuencia de vídeo.
REQUISITOS PARA MÉTRICAS OBJETIVAS DE CALIDAD DE VIDEO Hay varios requisitos para las métricas. Los siguientes requisitos se dan en [1]: 1. Relevancia de la métrica: los fragmentos de vídeo subjetivamente «mejores» deben corresponder al «mejor» valor de la métrica. Esta característica se puede medir cuantitativamente, por ejemplo, utilizando el coeficiente de correlación de Pearson, o evaluarse gráficamente, como se muestra en la Fig.
|
2. MonotoníaMétricas: idealmente, la diferencia entre dos valoraciones objetivas de fragmentos de vídeo debería tener el mismo signo que la diferencia entre dos valoraciones subjetivas de este material. Estimado mediante el coeficiente de correlación de rangos de Spearman. 3. Consistenciamétricas: la «desviación» de sus valores de los valores predichos sobre la base de métricas subjetivas no debería ser grande. Se calcula de la siguiente manera. En primer lugar, se realizan una serie de valoraciones subjetivas del fragmento de vídeo. Los resultados se procesan estadísticamente y se encuentra la desviación estándar de las estimaciones. Luego se calculan los valores de las métricas objetivas y se encuentra su número, que están separados de las evaluaciones subjetivas a una distancia de más del doble del valor de la desviación estándar.
MÉTRICAS OBJETIVAS DE CALIDAD DE IMAGEN En la disertación [2] se consideran seis clases de métricas de calidad de imagen: 1) Píxel. 2) Correlación. 3) Contorno. 4) Espectral. 5) Contextuales. 6) Teniendo en cuenta el sistema de visión humana.
1. Métricas de píxeles Las métricas de píxeles incluyen, en primer lugar, varias variaciones de la métrica de Minkowski, por ejemplo, la relación pico señal-ruido, que se introduce como el logaritmo de la relación de la máxima energía de señal posible. al cuadrado de la raíz del error cuadrático medio (MSE). Esta métrica ha sido criticada con razón por su inconsistencia con los tres requisitos anteriores. A pesar de esto, se usa ampliamente, pero no todos saben que hay una advertencia en su aplicación: primero es necesario calcular la desviación estándar para áreas individuales (canales de color, varios cuadros de video, etc.) y luego tomar el logaritmo de el valor medio de la desviación estándar. Otra posible métrica de píxeles es la diferencia máxima entre píxeles. Aquí se recomienda calcular varios valores de la diferencia máxima y encontrar su valor cuadrático medio. Las métricas comentadas anteriormente tienen la limitación de que cuando se utilizan, sólo se comparan imágenes completas. Puede resultar útil comparar imágenes presentadas a diferentes escalas. Se sabe que el sistema de visión humana primero evalúa la copia de baja frecuencia de la imagen y luego profundiza en los detalles. Por lo tanto, a la diferencia entre imágenes tomadas con una resolución aproximada se le pueden dar pesos grandes, y a la diferencia entre detalles de alta frecuencia se le pueden dar pesos pequeños. Esta métrica se utiliza en sistemas de visión por computadora.
2. Métricas de correlación Las medidas de correlación están interrelacionadas con las medidas de distancia: si dos imágenes son idénticas, el coeficiente de correlación será igual a 1, si el error al cuadrado es igual a la energía de la imagen (por ejemplo, los valores de píxeles de otra imagen son iguales a cero), entonces la medida de correlación será igual a cero. La correlación se puede calcular tanto entre los píxeles de la imagen como entre los vectores formados por ellos (por ejemplo, la correlación de ángulos entre vectores).
3. Métricas de contorno Muchos trabajos han demostrado que los contornos son la parte más informativa de una imagen. Son los contornos los que identifica principalmente el sistema de visión humana; el análisis de contornos se utiliza en la visión artificial. Esto significa que la calidad de los contornos indica la calidad de la imagen. Ejemplos de degradación de bordes incluyen saltos de línea, desenfoque de línea, desplazamiento de línea, bordes falsos, etc. Para realizar una comparación de imágenes basada en contornos, es necesario seleccionar de alguna manera los contornos en la imagen original (contornearla), luego usar el mismo método para seleccionar los contornos en la imagen reconstruida y compararlos (por ejemplo, calcular el correlación).
4. Métricas en el dominio espectral Después de calcular la transformada de Fourier de una imagen, es posible comparar la amplitud y la fase del espectro resultante. Se conocen propuestas para construir métricas para evaluar la calidad de la imagen sobre esta base.
5. Métricas contextuales Las métricas contextuales utilizan la presencia de correlaciones entre los píxeles de la imagen vecinos y su debilitamiento en una imagen distorsionada. Para obtener la métrica, debe poder calcular la función de distribución de probabilidad multidimensional de los valores de píxeles de una determinada vecindad y aprender a poder determinar el cambio en esta función. Otro enfoque para la evaluación local de la distorsión de la imagen es calcular y comparar histogramas locales para las imágenes originales y distorsionadas, por ejemplo, para bloques de tamaño 16 x 16. La comparación se puede realizar aplicando, por ejemplo, el criterio de correlación de rangos de Spearman.
6. Métricas que tienen en cuenta las propiedades de la visión humana Una de las posibilidades para construir métricas de esta clase es el filtrado preliminar de imágenes con filtros de paso de banda que imitan su percepción por parte de los humanos. Otra posibilidad para construir métricas que tengan en cuenta las propiedades de la visión es realizar una transformada wavelet de las imágenes originales y distorsionadas, como resultado de lo cual las imágenes se presentarán en varias escalas. A continuación, para cada subbanda de la región wavelet, es necesario seleccionar un peso de escala por el cual se multiplicará una u otra métrica calculada localmente para esta región. Dependiendo de la tarea, estos pesos pueden variar. Por ejemplo, si es importante tener en cuenta los componentes de alta frecuencia (claridad de línea, etc.), entonces se pueden aumentar los pesos para las áreas de alta frecuencia. La métrica se puede calcular tanto para toda la subbanda como localmente para sus bloques, seguido de un promedio de una forma u otra. En el trabajo [2], se estudiaron muchas métricas de las clases consideradas y se estudió su “independencia”. Ubicación cercana de las métricas en la Fig. significa su correlación (y redundancia).
|
EXPERIMENTOS PARA EVALUAR LA CALIDAD DE CODECS DE VIDEO. PERSPECTIVAMÉTRICAS Especialistas de la Facultad de Matemática Computacional y Cibernética de la Universidad Estatal de Moscú han desarrollado software y, a lo largo de los años, han probado varios códecs de vídeo basándose en métricas de calidad tanto subjetivas como objetivas. Los resultados se pueden encontrar en el sitio web dedicado a la compresión [3]. También puede descargar allí el software correspondiente. Durante los experimentos, los mejores resultados los mostró la nueva métrica SSIM (Structural Similarity Image Measure). Como sugiere el nombre, esta métrica evalúa la similitud estructural de las imágenes. Una descripción detallada de la teoría de esta métrica se da en el trabajo de los autores [4], y aquí presentamos un esquema general para su cálculo
|
¿QUÉ SIGUE?
La comunidad global está haciendo esfuerzos significativos para desarrollar métricas objetivas nuevas y más efectivas para evaluar la calidad del video. Las principales líneas de investigación se centran en las siguientes áreas:
- desarrollo de modelos adecuados de visión humana;
- construcción de modelos adaptativos de la visión humana;
- construcción de métricas que casi o en su totalidad no requieren evaluar la calidad de la secuencia de video original.
La comunidad líder en estos estudios es el Video Quality Experts Group (VQEG), cuyos materiales se pueden obtener a través de Internet, así como fuentes cuyos enlaces se encuentran en el texto del artículo.
Literatura 1. Winkler S. Calidad del vídeo digital. Modelos y métricas de visión. Wiley, 2005. 192 p. 2. Avcibas I. Estadísticas de calidad de imagen y su uso en esteganálisis y compresión. Tesis doctoral. Universidad Bogazichi, 2001. 113 p. 3. http://compression.ru 4. Wang Z., Bovik A., Sheikh H., Simoncelli E. Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural //IEEE Trans. En Image Proc., Vol.13, No. 4, 2004.
|
|
|