Procesamiento de imágenes digitales de espectrogramas dinámicos de señales de audio en el habla tareas de seguridad comunicaciones..
Dvoryankin Sergey Vladimirovich,
Candidato de Ciencias Técnicas
PROCESAMIENTO DE IMAGEN DIGITAL DE ESPECTROGRAMAS DINÁMICOS DE SEÑALES DE AUDIO EN PROBLEMAS DE SEGURIDAD EN COMUNICACIONES DE VOZ
Introducción
Según estimaciones de expertos nacionales y extranjeros, una parte importante de la información transmitida a través de los canales públicos de telecomunicaciones recae en mensajes de voz. Esta situación definitivamente continuará en el futuro, ya que es difícil para un instrumento tan universal de la comunicación humana como el habla, que tiene características únicas de efecto de presencia, color emocional, autenticación, redundancia de información y otras inherentes únicamente a esta comunicación. (negociación), para encontrar cualquier reemplazo equivalente en muchos sistemas de comunicación y transmisión de información. Es por eso que las tareas de protección de la información del habla ocupan uno de los lugares principales en la solución del problema general de la seguridad de la información.
Actualmente, existe una necesidad urgente de crear nuevos sistemas especiales de protección de información de voz y software y hardware basados en dispositivos informáticos estándar, en los que se puedan lograr ahorros significativos en el tiempo y los recursos materiales invertidos hoy en el desarrollo de equipos especiales tradicionales. Además, se puede aumentar la vida útil de este tipo de nuevas tecnologías actualizando, en primer lugar, tanto los componentes de software como los de hardware. Hoy en día, el retraso se observa sólo en los métodos generales de procesamiento digital de señales de audio, en relación con la solución de diversos problemas para garantizar la seguridad de las comunicaciones de voz. Y aquí, más que en ningún otro lugar, se necesitan nuevas tecnologías informáticas para obtener descripciones y procesar la señal de voz (RS).
Tiempo-frecuencia descripciones de señales de audio y voz
Como ocurre con la mayoría de otros estudios sobre este tema, para facilitar la comprensión de cálculos posteriores, podemos introducir la definición de objeto fono, que en adelante se entenderá como un objeto real que genera y emite señales en el rango de frecuencia de audio, el cual, siendo convertidos a formato digital, pueden grabarse y almacenarse en la memoria del ordenador en forma de archivos separados para su posterior procesamiento y/o transmisión. También observamos que la categoría de fonoobjeto puede incluir no solo el habla humana, sino también sonidos de diferente naturaleza, incluidos varios tipos de ruido e interferencias que interfieren con la percepción auditiva correcta y de alta calidad de una señal de voz, empeoran o distorsionar su comprensión. Por rastros de un objeto fonográfico nos referimos a una descripción paramétrica del mismo que nos permite recrear completamente su sonido o restaurar y expresar uno «nuevo». señal de audio de acuerdo con las propiedades cambiadas y especificadas en esta descripción paramétrica.
Observemos también que un fonoobjeto complejo, entendido como una combinación simultánea de algunos sonidos simples, puede representarse como la suma de los fonoobjetos de sus componentes. Por lo tanto, una sección vocalizada del habla con interferencia cuasi armónica se puede representar como una superposición de interferencia y una señal del habla, que a su vez puede considerarse como un conjunto de sonidos de sobretonos individuales, también incluidos en el fragmento de sonido dado en estudio. En este ejemplo, es conveniente considerar todos los componentes del sonido anteriores como un conjunto de señales de banda estrecha, teniendo en cuenta que todos los componentes espectrales de cada sonido elemental están agrupados en una banda relativamente estrecha en comparación con una determinada frecuencia central. Sin embargo, a veces también es conveniente considerar el complejo objeto fonográfico en sí como un proceso de banda estrecha.
Del análisis de numerosas publicaciones, podemos concluir que los conceptos principales que deben utilizarse al discutir la mayoría de las cuestiones relativas a garantizar la seguridad de las comunicaciones de voz utilizando tecnologías informáticas son los conceptos de inteligibilidad-ininteligibilidad del habla y los conceptos estrechamente relacionados de identificación, restaurar y reconstruir los parámetros de señales de banda estrecha (huellas de objetos fono), cuya totalidad constituye la señal de audio o de voz original estudiada (objeto fono). Modificando, cambiando o eliminando precisamente estos parámetros se puede lograr una solución a una tarea específica. Por tanto, el desarrollo y mejora de las tecnologías informáticas para la seguridad de las comunicaciones de voz dependerá, en primer lugar, de las medidas cuantitativas adoptadas para evaluar las señales de banda estrecha que componen las señales de audio y la voz transmitida — recibidos en canales de comunicación de acceso público y/o almacenados en diversos medios tangibles.
Con base en lo anterior, está claro que para comprender los procesos de transformación de audio a través del procesamiento de imágenes digitales de espectrogramas dinámicos, es recomendable elegir un modelo para la representación analítica de la señal de audio, con el que sería conveniente trabajar en el futuro. Como modelo, se puede utilizar una descripción analítica de una señal de sonido en forma de suma de señales de banda estrecha según Hilbert.
Los resultados de las investigaciones de los últimos años han demostrado que los datos necesarios para calcular los parámetros (amplitudes y fases) de las trazas de los objetos fonográficos pueden estar contenidos en exploraciones espectrales dinámicas de la señal de voz — descripciones de fase de amplitud, frecuencia-tiempo de espectros de voz instantáneos con un paso de observación (análisis) determinado en tiempo y frecuencia, — y, sobre todo, en las imágenes de ecografías de amplitud de banda estrecha. Dichos escaneos, a menudo llamados matrices de estados espectrales dinámicos (MDSS), se pueden obtener durante el análisis espectral dinámico-síntesis de voz (DSAS), deslizándose sobre la señal original con una ventana de análisis seleccionada, pasando de las muestras ponderadas por ella a su imagen de frecuencia basada en sobre la base ortogonal adoptada. Un ejemplo de este tipo de tecnología es el análisis-síntesis de señales de audio de Fourier a corto plazo, que se utiliza a menudo en sistemas de conversión de voz digital.
Las huellas de fonoobjetos de diversa naturaleza en forma de parámetros de amplitudes y fases de señales de banda estrecha de sus componentes, como se mostrará a continuación, aparecen en imágenes de espectrogramas dinámicos en forma de un conjunto de contornos (líneas) de diferencias de brillo o pistas (cadenas) de extremos locales y globales de saturación de color en niveles del mismo color. Aquí y a continuación, por procesamiento de imágenes nos referimos a realizar diversas operaciones sobre datos que son fundamentalmente de naturaleza bidimensional y no siempre toman valores no negativos.
Actualmente existen un gran número de buenos software analizadores y editores digitales de señales de audio diseñados para el análisis visual de señales de audio en el tiempo (oscilogramas, gráficos de niveles de potencia de la señal, etc.) y, por supuesto, en frecuencia (sonogramas, cepstra, etc.). .) dominios. Entre los productos de software importados de este tipo, cabe destacar Cool Edit Pro 1.2, Dart Pro, Sound Forge, Wave Lab, Wave Studio, etc., entre los nacionales: «SIS 5.2», « ;Win-Audio&# 187;, «Azure», Signal Quick Viewer 2 (SQV2), Signal Viewer (SV), etc. Varios editores de sonido tienen la capacidad de realizar ciertos tipos de procesamiento de señales de audio que se puede utilizar para resolver un número limitado de problemas de seguridad de la PC a través de tecnología informática. Estas tareas incluyen, en primer lugar, el filtrado RS y la eliminación de “interferencias simples de armónicos, impulsos y ruidos en un mensaje de voz recibido desde un canal de comunicación”. Estos tipos de procesamiento simples en la mayoría de los casos se llevan a cabo principalmente en el dominio del tiempo con una posible evaluación de los resultados del procesamiento obtenidos en el dominio de la frecuencia, basándose en el análisis de ecografías. Pero sólo en una serie de productos de software profesionales, diseñados específicamente para resolver los problemas más graves de protección de PC, es posible realizar tipos de procesamiento complejos, incluso en el dominio de la frecuencia, basados en el análisis de imágenes de ecografías dinámicas. Entonces, en la nueva versión de uno de esos productos de software, — «Lazur», promovida en el mercado de equipos especiales por OJSC «Novo», ha realizado la posibilidad directa de seleccionar un área de interés en la imagen del espectrograma del fonoobjeto estudiado mediante la aplicación de cualquiera de sus propios métodos integrados de procesamiento de imágenes digitales, o un poderoso arsenal de herramientas proporcionadas por editores gráficos conocidos como Adobe Photoshop después de transportarlos seleccionados en «Lazur» sección de la imagen con posibilidad de posterior inserción inversa y síntesis de una imagen gráfica así modificada. Todas las imágenes de sonogramas (espectrogramas) presentadas en este trabajo fueron creadas o construidas utilizando este producto de software. Además, en las imágenes de ecografías (espectrogramas), el parámetro de tiempo se traza a lo largo del eje de abscisas y el parámetro de frecuencia — a lo largo del eje de ordenadas, comenzando desde la esquina inferior izquierda de la imagen. La potencia máxima de la señal en estudio en un nodo de la cuadrícula de tiempo-frecuencia se indica en negro, la mínima en blanco y los valores intermedios en niveles de gris.
El enfoque principal para el análisis y procesamiento de señales de audio en las tareas de protección de mensajes de voz
En este trabajo, el autor propone un nuevo enfoque para la construcción de software y hardware especiales para la conversión de audio y voz basado en tecnología informática estándar, combinando la idea de traducir una señal de audio en forma de imágenes gráficas (imágenes de espectrogramas y fasogramas) y regresar de la imagen a una señal de audio o voz, sin pérdida de contenido de información o legibilidad, con las capacidades de métodos y productos de software conocidos y prometedores de procesamiento de imágenes digitales. Se muestra que el núcleo principal de este enfoque es el desarrollo y aplicación de métodos de análisis, restauración, reconstrucción y síntesis de trazas de señales de banda estrecha (objetos fono) que componen el sonido original y están presentes en el tiempo-frecuencia. cuadrícula de estas imágenes. Demos solo una pequeña fracción de ejemplos de la implementación práctica del enfoque propuesto para el análisis, síntesis y procesamiento de señales de audio mediante la restauración y reconstrucción de rastros de señales de audio de banda estrecha que forman objetos fono en las imágenes presentadas de sus espectrogramas. .
Análisis de información de rastros de fono-objetos
Muy a menudo, se puede obtener información adicional y, a veces, la información principal sobre el fonoobjeto estudiado, realizando un análisis de información de sus huellas, o de las huellas de los fonoobjetos que forman parte de una determinada señal de audio, utilizando imágenes de espectrograma calculadas adecuadamente. .
Fig. 1. Rastros de objetos fonográficos de diversa naturaleza, mostrados en ecografías
Arriba — huellas de una conversación entre un hombre y una mujer;
En el centro — rastros de equipos de barrera acústica y del habla;
Abajo — un ejemplo de edición por computadora de un discurso utilizando la voz de un locutor determinado.
Así, en el panel superior de la Fig. 1, un espectrograma de banda estrecha de una señal de audio recibida de un canal de comunicación telefónica muestra un fragmento de una conversación entre dos suscriptores, uno de los cuales es un hombre y el otro — mujer. Rastros de tres tipos de fonoobjetos: matices del habla de voces masculinas y femeninas en secciones vocalizadas sin pausa del sonograma e inclusiones de ruido en pausas — son claramente visibles en la imagen presentada del panel superior de la Fig. 1. Las trayectorias (contornos) de máximo contraste o cadenas (pistas) de máximos locales de niveles de gris son las huellas mismas de los componentes de banda estrecha de los objetos fonográficos que estudiamos. Son especialmente visibles en el área central resaltada de la imagen del sonograma en la Fig. 1 en forma de líneas claras que pasan por el centro de franjas grises y negras del mismo color. Tenga en cuenta que el sonograma de esta figura es muy similar a los sonogramas de banda estrecha, las llamadas impresiones del “habla visible”, que anteriormente se usaban ampliamente para el análisis de las señales del habla y, sobre todo, para identificar la voz del hablante. Ecografías similares con «habla visible» Para estos fines, incluso ahora, pero sólo gracias al enfoque descrito del procesamiento del habla, fue posible, utilizando ecografías especialmente calculadas y construidas, que de hecho son muy similares a las imágenes del «habla visible», restaurar el audio. señal directamente inmediatamente a partir de los rastros identificados de fonoobjetos presentes en las imágenes de estos sonogramas.
Los rastros de la voz de un hombre en las partes izquierda y derecha del espectrograma en el panel superior son notablemente diferentes de los de las mujeres (la parte media del espectrograma) en que tienen una frecuencia fundamental más baja en las áreas vocalizadas que las mujeres, es decir. las líneas armónicas del tono fundamental de la voz masculina en estas áreas están más espaciadas entre sí, y los sobretonos femeninos están espaciados a una distancia de frecuencia mucho mayor. Al analizar este espectrograma, es posible determinar los límites temporales de las frases pronunciadas por cada interlocutor y realizar con mayor éxito la posterior identificación de la persona por voz. Algunas señales en este espectrograma (trazas de teléfono colgado en el lado derecho) indican una determinada situación acústica alrededor de uno de los abonados, de la que podemos concluir si está hablando desde casa o desde un teléfono público de la calle.
En el panel central de la Fig. 1, en el espectrograma de una señal de sonido recibida de un canal acústico (aire), los rastros del sonido de un equipo especial de bloqueo acústico son visibles en forma de columnas alternas de líneas horizontales, similares a los sobretonos del habla (interferencia similar al habla ), con columnas de rastros de ruido potente. Esta rápida alternancia de áreas de diversos tipos de interferencia tiene como objetivo impedir el funcionamiento del equipo de filtrado adaptativo del RS, si se utilizara para limpiar el mensaje de voz recibido del ruido y las interferencias y restaurar su inteligibilidad. En el centro del espectrograma se ven rastros de una señal de voz suprimida, cuya fuga a través de los canales técnicos acústicos y vibroacústicos debía evitarse mediante este dispositivo de protección de la información de voz en las salas de negociación confidenciales. Una vez analizado este espectrograma, es posible sacar ciertas conclusiones sobre el grado de correspondencia entre la eficiencia real de supresión de los canales de fuga de señales de voz proporcionada por este equipo de barrera acústica y la declarada para ello en la documentación técnica y tomar las medidas adecuadas para aumentarla. , si es necesario, el grado de eficiencia de la supresión de RS confidencial, o si es posible, restaurar dicho mensaje de voz distorsionado por los especialistas técnicos del intruso” que realizan el acceso a la información de voz confidencial.
En el panel inferior de la Fig. La Figura 1 muestra una ecografía del habla artificial obtenida mediante edición por computadora, pegando imágenes gráficas de fonemas y sonidos individuales de un diccionario previamente acumulado de frases estándar del «hablante parodiado». A pesar de que los lugares de empalme están bastante bien retocados y, por lo tanto, el discurso de un hablante determinado sintetizado con imágenes gráficas nuevas y modificadas suena bastante bien, visualmente los rastros de edición en esta ecografía aún se notan claramente. Especialmente al final de cada frase nueva individual y en lugares donde se pegan secciones con diferentes números de armónicos.
Compresión de mensajes de voz
Los problemas de compresión de la PC también se pueden resolver procesando imágenes de ecografía. El esquema de procesamiento es el siguiente: primero, durante DSAS, el RS se convierte en su imagen gráfica, una ecografía, dentro de los límites de la ventana de análisis seleccionada; luego, esta imagen de ecografía se comprime utilizando uno de los métodos de compresión de imágenes y los coeficientes de compresión se transmiten al canal de comunicación; Con base en los coeficientes de compresión obtenidos, se reconstruye la imagen del sonograma original en el extremo receptor del canal de comunicación, que luego se utiliza para sintetizar un nuevo RS. La ventaja de este método de codificación del habla es que solo se utiliza una descripción inicial del RS: una ecografía con rastros de fonoobjetos, a partir del cual es posible obtener casi cualquier tasa de codificación del habla necesaria, determinada por la capacidad de la comunicación. canal en un momento dado, manteniendo al mismo tiempo la máxima inteligibilidad y calidad de sonido posible del habla reconstruida. Los resultados de una serie de estudios recientes han demostrado que al aplicar métodos de transformación fractales o especiales basados en Wavelet a imágenes de ecografía, es posible lograr una velocidad de codificación mínima de 800 bps manteniendo al mismo tiempo una inteligibilidad verbal de aproximadamente el 80 %.
Fig. 2. Ejemplos de compresión de voz
Arriba se muestra una ecografía del fragmento del habla original estudiado;
En el centro hay una ecografía de una señal de voz restaurada después de la compresión a una velocidad de 1000 bps, utilizando uno de los algoritmos de compresión de imágenes de la ecografía original;
A continuación se muestra una ecografía de una señal de voz restaurada después compresión a 800 bps con información de excepción sobre el tono principal.
En el panel superior de la Fig. 2. Sobre la ecografía, se dibuja un oscilograma aproximado de todo el MS estudiado, indicando la ubicación del fragmento seleccionado.
Una ecografía de la misma sección del habla, restaurada después de la compresión mediante el método propuesto a una velocidad de 1000 bits/s, y una ecografía de la misma sección de RS, restaurada después de la compresión a 800 bits/s eliminando información sobre la melodía de El tono utilizando métodos de procesamiento de imágenes digitales se muestra, respectivamente, en los paneles central e inferior de la Fig. 2.
Se puede observar que la ecografía del habla reconstruida después de la compresión a una velocidad de 1000 bps es más similar a la ecografía del RS original que la ecografía de la señal reconstruida después compresión de la imagen obtenida alineando los tonos principales. Por eso el primer RS restaurado suena mejor y más natural que el segundo, con la misma inteligibilidad bastante alta.
Mejorar la comodidad de la percepción de las señales del habla
Muy a menudo, la percepción de los mensajes de voz recibidos de los canales de comunicación deja mucho que desear sólo porque la banda de frecuencia RS se desplaza de su posición real. Puede colocar el espectro RS dentro de los límites de frecuencia originales desplazando la imagen del sonograma del habla recibida en la cantidad del desplazamiento requerido, seguido de sintetizar un nuevo RS utilizando los valores MDSS modificados.
En algunas aplicaciones, puede ser muy importante escuchar el RS grabado a velocidad acelerada o lenta sin cambiar el timbre del habla. Esto se puede lograr realizando el escalamiento temporal necesario del sonograma del habla original, ya sea estirándolo en el tiempo o comprimiéndolo, pero sin ir más allá de la banda de frecuencia del RS original. Tras realizar una síntesis a partir de las ecografías modificadas obtenidas, el resultado es el discurso del mismo hablante, pero reproducido a un ritmo acelerado o lento, conservando todas las características inherentes a este hablante.
Arroz. 3. Cambiar el tempo y el timbre del habla
Arriba — Ecografía del habla sintetizada con una aceleración del tempo del 30% en relación con la señal en el panel superior de la Fig. 2;
En el centro — Ecografía de voz sintetizada con un tempo ralentizado en un 30% con respecto a la señal en el panel superior de la Fig. 2;
Abajo — cambiar el timbre del habla reduciendo la escala de frecuencia de la ecografía original en el panel superior de la Fig. 2 en un 30%.
En la figura. 3 en la parte superior y en el medio se muestran respectivamente: una ecografía de un RS sintetizado en la banda de frecuencia original, pero con compresión temporal — a un ritmo acelerado en un 30% en relación con el discurso original en el panel superior de la Fig. 2; Ecografía de un RS sintetizado en la banda de frecuencia original, pero con un estiramiento temporal — a un ritmo un 30% más lento en relación con el discurso original en el panel superior de la Fig. 2. En el panel inferior de la Fig. La Figura 3 muestra una ecografía de una señal de voz con timbre cambiado, sintetizada sin tener en cuenta los componentes de fase en el PP «Lazur» después de cambiar la escala de frecuencia vertical en Adobe Photoshop, es decir, comprimir la frecuencia del sonograma RS original en aproximadamente un 30 %, pero manteniendo la velocidad normal del habla durante la reproducción
Mensajes de voz, cuyas ecografías se presentan en los paneles superior e intermedio de la Fig. 3 suenan tan naturales e inteligibles como si los dijera la misma persona, pero a un ritmo más rápido o más lento. Sus ecografías se parecen mucho a la ecografía del fragmento de habla original (panel superior de la figura 2), pero reproducidas en la escala adecuada. Cuando la imagen del espectro del habla se comprime por frecuencia (panel inferior de la Fig. 3) o cuando se estira, llegamos a los mismos efectos de emitir una nueva señal, que generalmente se observan al expresar el discurso original en frecuencias de muestreo modificadas. .
Limpiar las señales de voz del ruido y las interferencias
Este es el grupo de tareas más común en el campo de la seguridad de PC. Las tareas de corregir el espectro del habla, eliminar el ruido y las interferencias surgen tanto en los casos en que una señal de voz pasa a través de un canal de comunicación de baja calidad como en los casos de interferencias introducidas deliberadamente. Actualmente, existe en el mercado una gran cantidad de herramientas técnicas diferentes, tanto hardware-software como puramente software, diseñadas para diversas opciones de limpieza de PC, con la ayuda de las cuales se resuelven con mayor o menor éxito una serie de problemas de este grupo. Sin embargo, cuando se utilizan tecnologías informáticas basadas en el enfoque propuesto para el procesamiento del habla mediante el procesamiento de imágenes de sus ecografías en modo DSAS, es posible lograr los resultados de limpieza del habla más efectivos en términos de tiempo y recursos financieros invertidos en los casos más complejos de interferencia. Esto se logra debido al hecho de que es posible lograr cierta flexibilidad y versatilidad en la eliminación de diversos tipos de factores que interfieren con la percepción auditiva legible y de alta calidad mediante la identificación, estratificación y eliminación de rastros de objetos fono similares en imágenes de gráficos. imágenes — espectrogramas o sonogramas de toda la señal original.
Figura 4. Eliminación rastros de fuerte interferencia de la señal de voz
Arriba — ecografía del habla con interferencia que excede significativamente el nivel del habla;
En el centro — ecografía de una sección de habla limpia después del procesamiento utilizando la dependencia cuadrática del componente no lineal de la fase total en un modelo simplificado de la señal de audio;
A continuación — Ecografía de una sección del habla limpia después del procesamiento utilizando un modelo de habla refinado como un conjunto de señales de banda estrecha según Hilbert.
Los resultados de la limpieza al implementar este enfoque se pueden monitorear no solo auditivamente, sino también visualmente mediante el análisis y modificación de imágenes de ecografía de la señal del habla original y restaurada en cada etapa de procesamiento siguiente. De esta forma, es posible implementar algoritmos de procesamiento digital que antes no eran posibles. Además, todo el proceso de limpieza del RS de interferencias se puede reducir a un proceso fácilmente comprensible por el usuario de eliminar o borrar rastros de interferencia en la imagen del sonograma, seguido de retocar los rastros restantes de RS, similar a editar imágenes en gráficos comunes. editores.
El uso más eficaz de los métodos de procesamiento de imágenes de ecografía digital es cuando es necesario eliminar las interferencias cuasi armónicas estacionarias o que cambian lentamente presentes en la señal del habla. En la figura 2 se muestra un ejemplo de cómo eliminar rastros de interferencia fuerte de un RS. 4.
El panel superior muestra una ecografía ya conocida de varias publicaciones con el RS original con interferencias superpuestas, superando al habla en casi 25 dB. Los rastros de interferencia son claramente visibles en la imagen del espectrograma en forma de líneas negras gruesas y onduladas. Al reproducir dicha señal, solo se escuchará un ruido y el mensaje de voz, amablemente proporcionado al autor en forma de un archivo de datos digitalizado por su colega y compañero de clase Yu Romashkin, ahora vivo, para este tipo de experimentos con su voz. no será escuchado en absoluto. Dado que el habla enmascarada por una interferencia tan poderosa es absolutamente inaudible y, en consecuencia, ininteligible, un RS distorsionado por la interferencia también puede considerarse como un mensaje de voz sujeto a supresión técnica debido a la introducción de interferencias que interfieren con su percepción auditiva correcta.
En los paneles medio e inferior de la Fig. La Figura 4 muestra una ecografía del RS, reconstruida durante la identificación inicial y estratificación de rastros de interferencia en la misma área previamente seleccionada, seguida de la síntesis y resta de la interferencia sintetizada del habla distorsionada original. Después de tal síntesis, en las secciones reconstruidas de la ecografía, en los lugares donde había rastros anteriores de interferencia, se ven claramente los matices del habla que antes había ocultado. El discurso de Yu Romashkin restaurado de esta manera en las áreas seleccionadas es audible, comprensible y legible.
Tenga en cuenta, sin embargo, que en la versión restaurada presentada en el panel central de la Fig. 4, el más utilizado por los investigadores fue la dependencia cuadrática del componente de fase no lineal con el tiempo para la síntesis de interferencias que forman parte de un fono-objeto inicial complejo, descrito según un modelo simplificado. Por lo tanto, en las zonas restauradas, los rastros de interferencia, aunque muy debilitados, siguen siendo apenas visibles y apenas audibles en el contexto de un habla inteligible.
Si calculamos más correctamente los componentes de fase y amplitud de los componentes de interferencia de banda estrecha incluidos en la señal original, así como la función de la ventana de ponderación durante las operaciones DSAS, entonces se pueden lograr mejores resultados en la restauración del habla distorsionada por la interferencia. Esta versión de la síntesis de la interferencia a partir de sus trazas con su posterior resta de la señal original se muestra en el panel inferior de la Fig. 4, donde prácticamente no hay rastros de interferencias que interfieran con la percepción auditiva en las mismas áreas seleccionadas. Naturalmente, el habla restaurada de esta manera sonará aún más natural.
Notemos una vez más que utilizando las capacidades de potentes editores gráficos como Adobe Photoshop para modificar imágenes de áreas seleccionadas de ecografías de señales de voz distorsionadas con posterior síntesis, se pueden lograr resultados aún más impresionantes en la eliminación de ruido y la restauración de la inteligibilidad. En este sentido, son especialmente interesantes los enfoques para la limpieza asíncrona de uno y dos canales del RS en presencia o incluso en ausencia de una señal de referencia. También son alentadores los resultados verificados experimentalmente de los estudios sobre la continuación analítica de la estructura armónica de la señal del habla y la restauración de los formantes superiores en las áreas afectadas de las imágenes, es decir, en aquellos lugares de la grilla tiempo-frecuencia donde estos parámetros estaban debilitados, distorsionados o ausentes, ya sea por malas condiciones de recepción de la señal acústica o por un mal funcionamiento y/o elección incorrecta de las características del equipo de grabación de sonido utilizado. Esto es tanto más interesante cuanto que los matemáticos ya han desarrollado los fundamentos teóricos para restaurar matrices de imágenes distorsionadas debido a las condiciones de su tamaño limitado y los valores no negativos incluidos en ellas.
Esteganofonía informática, firma de voz y cierre técnico del habla
En la figura. La Figura 5 muestra ejemplos del uso del enfoque propuesto en problemas de esteganofonía informática, que son una parte integral de la nueva área de seguridad de la información en rápido desarrollo: la seguridad de la información. esteganografía por computadora. Así, en el panel superior de la Fig. La Figura 5 muestra la posibilidad de convertir imágenes de cualquier contenido en un archivo de sonido, cuyo espectro dinámico coincidirá visualmente bastante bien con la imagen del progenitor de un sonido determinado. A modo de ejemplo se muestra un espectrograma de sonido sintetizado a partir de una imagen escaneada de una fotografía del autor de este trabajo.
Arroz. 5. Ejemplos de esteganofonía informática
Arriba: un oscilograma y un espectrograma de una señal de sonido sintetizados a partir de una fotografía;
A continuación se muestra un espectrograma de marcadores esteganofónicos en forma de inscripciones de texto impreso y escrito a mano, traducidos a formato de audio.
Además, es posible implementar este método de colocación de marcadores esteganofónicos, que consiste en dibujar caracteres condicionales, texto o inscripciones sobre o en lugar de un sonograma de la señal de audio original, seguido de una síntesis para su transmisión a un canal de comunicación de acceso público. Después de tales transformaciones, se obtiene una nueva señal de sonido, cuyo espectrograma de una de cuyas variantes se muestra en el panel inferior de la Fig. 5.
Utilizando los métodos descritos aquí para traducir sonido en imagen y viceversa, es posible ofrecer una nueva medida adicional para proteger los documentos confidenciales contra la falsificación y la falsificación — «firma de voz» (PR). Mediante esta tecnología, al final de un documento, por ejemplo un contrato, junto con la firma y el sello habituales, se entrega a cada uno de los contratantes una ecografía con el RP, en la que se muestran los puntos más importantes del documento, estrechamente relacionados con su contenido semántico, se expresan en la voz del responsable. Objeto, cuantía y duración del contrato. Es posible cambiar estas posiciones en el documento, pero ya no será posible cambiar el RP. Tenga en cuenta que en una hoja de papel A4, una impresora láser normal puede imprimir de 2 a 4 minutos de conversación continua con calidad telefónica.
Como prueba experimental de esta idea, se utilizaron ecografías previamente escaneadas de artículos de las revistas «Spetstekhnika», «Confident» y otras publicaciones impresas y electrónicas. Como resultado de la síntesis de estas ecografías obtenidas mediante diversos productos de software, se restauró por completo el significado e incluso las características sonoras individuales de los mensajes de voz contenidos en ellos. Además, después de escuchar una serie de ecografías, presentadas como ejemplos gráficos de la implementación de ciertos métodos de reducción de ruido en obras completamente diferentes, el autor se sorprendió al reconocer su propia voz.
Está claro que para representar sonidos en forma de imágenes gráficas en algunas aplicaciones, es posible y necesario utilizar otras representaciones visuales de señales de audio. Sin embargo, para facilitar la comprensión de los procesos de procesamiento digital del habla utilizados, nos basaremos en ecografías dinámicas tradicionales. En este sentido, consideraremos los ejemplos de cierre técnico del RS a continuación.
Uno de los métodos de supresión técnica del habla, cuando el RS simplemente está enmascarado por una interferencia poderosa, ya lo hemos considerado como parte de la discusión sobre la cuestión de limpiar un RS distorsionado de interferencias cuasi armónicas. En el panel superior de la Fig. 2 se muestra una ecografía de dicha mezcla de sonidos. 4.
Arriba se muestra un espectrograma de la señal sintetizada a partir del sonograma en el panel superior de la Fig. 2 con rotaciones de los tres elementos tiempo-frecuencia resaltados en 1800 (inversión tiempo-frecuencia), 900 (en el sentido de las agujas del reloj) y 1800 (inversión tiempo-frecuencia);
Abajo — Espectrograma de una variante del cierre técnico del habla en forma de espiral de la imagen del sonograma en el panel superior de la Fig. 2 seguido de síntesis;
En el panel superior de la Fig. La Figura 6 muestra una ecografía de una nueva señal de sonido obtenida en base a la síntesis de la imagen del sonograma original en el panel superior de la Fig. 2, modificado por varias rotaciones de los elementos tiempo-frecuencia seleccionados. Por primera vez, es posible obtener una nueva señal de audio, cuyo espectro gira con respecto al original 900, y no sólo 1800 como en los casos de inversión de frecuencia y/o tiempo.
En el panel inferior de la Fig. La Figura 6 muestra otro posible método de cierre técnico del habla, como resultado del cual obtenemos una señal de voz sintetizada a partir de una imagen de ecografía retorcida en espiral del habla original (panel superior de la Figura 2). El nuevo RS es absolutamente inaudible y cuando se pronuncia, se escuchan sonidos similares al silbido de un delfín debido al movimiento cíclico de los armónicos más bajos y potentes del «viejo». señal de voz en toda la banda de frecuencia del canal de comunicación seleccionado. Es posible restaurar el habla técnicamente cerrada de esta manera realizando un proceso de «desenrollado» inverso. ecografías de habla ininteligible.
Con base en el enfoque propuesto, son posibles otras opciones para resolver los problemas de esteganofonía informática, firma de voz y cierre técnico del habla. Cabe señalar que los métodos discutidos anteriormente para instalar e identificar marcadores esteganofónicos e introducir ilegibilidad en el RS original con su posterior restauración no siempre requieren sincronización de los procesos de procesamiento, por lo que pueden usarse en canales de comunicación no solo durante recepción y transmisión, pero también en modos de almacenamiento RS. Por lo tanto, pueden encontrar su aplicación en una amplia gama de dispositivos de procesamiento de sonido y conversión de voz, así como en la transferencia y almacenamiento de RS procesados en casetes de audio y disquetes. Está claro que el uso combinado de algoritmos de cierre criptográfico certificados por FAPSI en los métodos propuestos de esteganofonía informática y/o cierre técnico del habla aumentará de manera confiable la resistencia de dichos sistemas a los intentos de un intruso de obtener información confidencial protegida del habla.
Conclusión
En los sistemas modernos de seguridad de las comunicaciones por voz se utilizan cada vez más tecnologías informáticas para el procesamiento de señales digitales e imágenes. Los principales requisitos actuales para tales sistemas son la velocidad y la eficiencia de realizar diversos procedimientos de procesamiento de señales de voz utilizando hardware de telefonía informática estándar y económico, a saber: una computadora personal, una tarjeta de sonido, un dispositivo para conectarse a una línea telefónica y/o un módem. Estos requisitos se pueden cumplir mediante el uso de métodos digitales de síntesis y análisis espectral dinámico (DSAS) de señales de voz y audio.
Aquí se consideró un nuevo enfoque para la construcción de software y hardware especiales para la conversión de audio y voz basado en tecnología informática estándar, combinando la idea de traducir una señal de audio durante el proceso DSAS en forma de imágenes gráficas (imágenes de espectrogramas y fasogramas) y regresar de la imagen a una señal de audio o voz sin pérdida de contenido de información o inteligibilidad con las capacidades de métodos y productos de software conocidos y prometedores para el procesamiento de imágenes digitales. Se demostró que el núcleo principal de este enfoque es el desarrollo y uso de métodos para restaurar y reconstruir rastros de componentes de banda estrecha de fonoobjetos presentes en las imágenes dinámicas calculadas de espectrogramas y sonogramas.
Ejemplos dados del uso del enfoque propuesto en relación con la solución Las tareas más comunes para garantizar la seguridad de los mensajes de voz han demostrado su alto potencial en la implementación de varios algoritmos para el procesamiento de señales de audio, incluso muy complejos y no realizados anteriormente. , que ya son aplicables hoy en día para crear sistemas informáticos para proteger mensajes de voz en canales de comunicación públicos. Este enfoque puede convertirse en la base para diseñar nuevos sistemas de seguridad para PC y evaluar la eficacia del uso de dispositivos de protección de mensajes de voz ya disponibles en el mercado de equipos especiales.