Enmascaramiento de mensajes de voz basado en tecnologías informáticas modernas.

Enmascaramiento de mensajes de voz basado en tecnologías informáticas modernas.

Enmascaramiento de mensajes de voz basado en tecnologías informáticas modernas.

Dvoryankin Sergey Vladimirovich, Doctor en Ciencias Técnicas
Klochkova Ekaterina Nikolaevna
Kaluzhin Roman Vladimirovich

DISCURSO ENMASCARAMIENTO DE COMUNICACIONES BASADO EN TECNOLOGÍAS INFORMÁTICAS MODERNAS

Fuente: revista «Special Equipment»

En los últimos años, la protección de las comunicaciones confidenciales ha recibido una atención cada vez mayor. Prueba de ello son numerosas publicaciones en revistas especializadas, incluidos casi todos los números de la revista “Special Technology” [1 – 15]. Esto se debe, por un lado, al alto contenido de poliinformación de los mensajes de voz. Por otro lado, la variedad de amenazas informativas en relación con la información acústica (del habla) y las características de los escenarios para su desarrollo e implementación [1, 2, 5, 13], que se refleja en la amplia variedad de métodos y medios modernos. de proteger los mensajes de voz del acceso no autorizado

Existen dos tipos principales de neutralización de la fuga de información acústica (del habla) de los canales de comunicación [1, 2, 5, 8]:

    .

  • medios de protección física de los mensajes de voz, incluidos bloqueadores, bloqueadores, filtros y medios de búsqueda de canales de fuga de información de audio;
  • medios de protección semántica de la información del habla en los canales de comunicación de voz.

Se sabe que los medios para prevenir la fuga de información de audio del primer grupo tienen una serie de debilidades y restricciones en su uso en un situación práctica particular, dependiendo del tipo de línea de comunicación, su equipo terminal, calificaciones técnicas del personal y otros factores [1, 2, 13].

La protección semántica de los mensajes de voz mediante métodos criptográficos hasta ahora ha sido considerada por los expertos como la única posibilidad de protección garantizada o altamente confiable de varios canales de comunicación de voz, independientemente de las condiciones de negociación, las características técnicas de los equipos de comunicación y otros factores. Los dispositivos de protección de voz correspondientes, en los que durante el proceso de conversión de voz se aplican algoritmos criptográficos a secciones y/o parámetros de la señal de voz (por ejemplo, un algoritmo de conversión criptográfica según GOST 28147-89), se denominan codificadores analógicos y digitales. sistemas de conversión de voz basados ​​en códecs y vocoders con posterior cifrado [2, 8, 12, 14]. Un rasgo característico del funcionamiento de los codificadores es la división de la señal de voz original (RS) en secciones separadas en una cuadrícula de tiempo y frecuencia, seguida de su mezcla, suma y transmisión en un canal de comunicación en forma analógica. Una característica del funcionamiento de los dispositivos de cifrado de voz digitales son las transformaciones criptográficas de datos digitales en forma de onda o la descripción paramétrica del RS con la posterior transmisión en forma digital a través de un canal de comunicación [2, 8, 12, 14].

El objetivo principal del desarrollo de sistemas de comunicación por voz es identificar, transmitir y almacenar aquellas características del habla que son más importantes para la percepción del oyente. La seguridad de la comunicación durante la transmisión de mensajes de voz y, sobre todo, la dirección de la protección semántica del RS, se basa en el uso de una gran cantidad de métodos y medios diferentes para convertir el RS. Cambian las características del habla de tal manera que se vuelve ilegible o irreconocible para un espía que haya interceptado el mensaje de voz procesado, o que el hecho mismo de su transmisión quede completamente oculto.

Recientemente, tanto los desarrolladores como los consumidores de medios de protección semántica de los mensajes de voz han observado una tendencia cada vez más constante a utilizar nuevas tecnologías informáticas para garantizar la seguridad de las comunicaciones de voz (OBRS) sin el uso de métodos criptográficos clásicos. En este sentido, las tecnologías informáticas para enmascarar mensajes de voz son cada vez más atractivas, uno de cuyos tipos de clasificación generalizada se presenta en la Fig. 1. Con menores costos financieros para el desarrollo (principalmente software), distribución y adquisición de tales tecnologías, pueden convertirse en una especie de amortiguador entre los sistemas criptográficos y los sistemas de protección física de los mensajes de voz en los canales de comunicación [5]. Además, con la ayuda de tales tecnologías es posible resolver una serie de otras tareas de OBRS no menos importantes que el cierre técnico del RS para protegerlo del acceso no autorizado mediante la introducción de ilegibilidad. Por ejemplo, puede transmitir mensajes de voz en secreto en varios canales de comunicación y cambiar su voz para lograr irreconocible mientras mantiene un sonido natural.


Fig. 1. Clasificación general de métodos para enmascarar mensajes de voz

Está claro que estas tecnologías de enmascaramiento de sonido y voz han recibido un impulso para su uso generalizado debido al rápido desarrollo en los últimos años de la tecnología multimedia y los nuevos enfoques para la descripción y el procesamiento de señales de voz. Uno de ellos es un enfoque para la construcción de software y hardware OBRS especiales, que combina la idea de traducir una señal de audio (voz) en forma de imágenes gráficas correspondientes y viceversa de la imagen al sonido o al habla sin pérdida de información. contenido y/o inteligibilidad con las capacidades de métodos de procesamiento digital de imágenes conocidos y prometedores. El núcleo principal de este enfoque es el desarrollo y aplicación de métodos para identificar y reconstruir los parámetros de las señales de banda estrecha de Hilbert presentes en estas imágenes. Esta descripción paramétrica de una señal acústica (del habla) inicial compleja le permite recrear completamente su sonido o restaurar y expresar una señal «nueva&#187. señal de sonido basada en las propiedades cambiadas y especificadas en dicha descripción paramétrica [5, 7].

Los estudios han demostrado que los datos necesarios para calcular los parámetros de las señales elementales de banda estrecha que componen el sonido o el habla original pueden estar contenidos en exploraciones espectrales dinámicas de esta señal acústica (AS), es decir, en imágenes de ecografías de amplitud correctamente calculadas y /o espectrogramas. Estas imágenes se pueden obtener durante el análisis-síntesis espectral dinámico de sonidos y voz (DSAS), deslizándose sobre la señal original con la ventana de análisis seleccionada y pasando de las muestras ponderadas por ella a su imagen de frecuencia según la base ortogonal adoptada. Un ejemplo de tales procedimientos es el análisis-síntesis de señales de audio de Fourier a corto plazo. Aunque en algunas aplicaciones OBRS para realizar DSAS es posible utilizar no solo armónicos, sino también otras bases, por ejemplo funciones Wavelet, tradicionalmente se utiliza con mayor frecuencia el análisis-síntesis de Fourier a corto plazo de señales de audio y voz.

Los parámetros de las señales de audio elementales de banda estrecha de Hilbert que componen el sonido del sonido o habla original aparecen en las imágenes de espectrogramas dinámicos en forma de un conjunto de contornos (líneas) de diferencias de brillo o pistas (cadenas) de extremos locales y globales. de saturación de color en niveles del mismo color. Usando un software especial, utilizando contornos (pistas) similares, que son visibles en la cuadrícula de tiempo-frecuencia de los espectrogramas dinámicos (ver Fig. 2, panel superior), es posible identificar frecuencias, amplitudes y fases de sonidos elementales de una acústica compleja. (voz) señal, y luego se reconstruyen, modifican, destruyen y crean de nuevo para resolver un problema OBRS específico utilizando varios métodos y herramientas conocidos de procesamiento de imágenes digitales.

Arriba – una voz femenina natural con trayectorias resaltadas de componentes del habla de banda estrecha;
En el centro hay una voz femenina artificial, sintetizada según una muestra determinada;
A continuación se muestra una voz masculina artificial, sintetizada según una muestra determinada.

Fig. 2. Ecografías de la frase “Gracias por el café. ¿Qué hora es?”

Entonces, al área seleccionada en el centro del panel superior de la Fig. 2 imágenes gráficas de la PC, puede utilizar un poderoso arsenal de herramientas proporcionadas por editores gráficos conocidos como “Adobe Photoshop”, “Corel Draw”, “Photo Editor” y otros. Después del procesamiento necesario de esta sección de la imagen del espectrograma en el editor gráfico seleccionado, se puede volver a insertar en su propio lugar y en otro lugar para su posterior síntesis y escucha de la nueva señal acústica o de voz modificada de esta manera.

Tenga en cuenta que en las imágenes de ecografías (espectrogramas) de voces naturales y artificiales (Fig. 2 y posteriores), construidas con el software especializado (SPO) «Lazur», el parámetro de tiempo se traza a lo largo del eje de abscisas, y el parámetro de frecuencia se traza a lo largo del eje de ordenadas, comenzando desde la esquina inferior izquierda de la imagen. La potencia máxima de la señal en estudio en un nodo de la grilla tiempo-frecuencia se indica en negro, la mínima en blanco y los valores intermedios en escala de grises.

Consideremos con más detalle las distintas clases de enmascaramiento de mensajes de voz implementadas utilizando el enfoque de procesamiento propuesto RS mediante el procesamiento de sus imágenes gráficas.

Sistemas de voz artificial

Si en los cambiadores de voz tradicionales no se prestaba mucha atención a la calidad del sonido (naturalidad y naturalidad) del habla artificial, ahora la situación está cambiando. Así, existen informes de productos de software que buscan por patrón de voz. A menudo, durante las investigaciones, para no ser reconocidos, los agentes tienen que hacerse pasar por otra persona. Todo esto lleva al surgimiento de la tarea de cambiar cualitativamente la voz durante la implementación de medidas para la protección integral de la información del habla.

Esta es una tarea bastante difícil, ya que la voz de cada persona es individual y reconocible. Además, la percepción auditiva es tan perfecta que permite reconocer los matices más sutiles de una señal del habla. El oído humano determina con bastante precisión los signos de artificialidad y naturalidad del habla. Por lo tanto, para resolver el problema de crear un sistema informático para una voz artificial manteniendo el sonido natural, tanto a partir de la voz del hablante como de una muestra de voz determinada, es necesario detenerse con más detalle en el concepto de habla y su características principales.

El habla suele entenderse como una especie de mensaje de audio generado por humanos que puede grabarse, medirse, almacenarse, procesarse y, lo que es más importante, reproducirse objetivamente mediante instrumentos y algoritmos. Es decir, un mensaje de voz puede presentarse en forma de una determinada señal de voz, que a su vez puede usarse para la reproducción inversa de la voz. Es decir, es posible establecer un signo de equivalencia entre el habla de audio y su representación en forma de señal de voz, incluso en forma digitalizada contenida en archivos de computadora.

Se sabe que el habla es un proceso complejo de comunicación entre personas, que incluye tanto información sobre la voz individual del hablante como información sobre la calidad fonética. Por tanto, es importante garantizar la correcta elección y justificación del sistema de características que determinarán el principio de construcción del habla. Las principales características responsables de la coloración individual del habla se pueden dividir en dos grupos: las asociadas con los mecanismos fisiológicos de formación del habla y las asociadas con los métodos de ponerlo en acción (actividad articulatoria) [3].

El primer grupo de características se basa en un modelo bien conocido del tracto vocal, que consta de una función de transferencia de un sistema resonante y un generador de impulsos de señal de excitación. La función de transferencia caracteriza casi por completo la forma geométrica individual de las cavidades del aparato del habla. Los principales parámetros aquí son las características de las cuatro regiones de formantes (frecuencia promedio, rango de frecuencia, energía), la envolvente del espectro, las trayectorias de los formantes y las derivadas de estos parámetros. La frecuencia de los impulsos de excitación depende directamente de las vibraciones de las cuerdas vocales, que, a su vez, dependen de la longitud, grosor y tensión de estas últimas. Los principales parámetros aquí son la frecuencia (período) del tono fundamental, el parámetro tono/ruido, la sonoridad, el aumento del tono fundamental y las derivadas de estos parámetros [3].

Para calcular los parámetros relacionados con las características fisiológicas del tracto vocal, se utilizan con mayor frecuencia métodos de análisis espectral-temporal. Estos métodos de análisis de señales del habla son adecuados al mecanismo natural de percepción del habla. Estos métodos suelen basarse en el análisis clásico de Fourier o en el análisis autorregresivo paramétrico (la predicción lineal es un caso especial). Los parámetros del primer grupo son bastante sencillos de aislar de imágenes de ecografías dinámicas de banda estrecha, basándose en el enfoque propuesto descrito anteriormente.

El segundo grupo de parámetros también incluye características de entonación del flujo del habla, tales como como intensidad, entonación del habla, sistema de acentuación, patrón rítmico de la frase del habla.

Entre los parámetros de la señal del habla que determinan la individualidad de la voz de una persona, es necesario destacar los parámetros integrales del habla, que no pueden atribuirse a ninguno de los grupos considerados, pero están fuertemente correlacionados con ellos y se forman bajo el influencia de las características anatómicas del tracto productor del habla y la actividad articulatoria de una persona. Es decir, el análisis de parámetros integrales permite determinar las características de la pronunciación individual de segmentos de habla de diferente contenido fonético [3].

Se puede suponer que al cambiar estas características, basándose en el enfoque propuesto para el procesamiento del habla, mediante el procesamiento de imágenes gráficas de la PC, es posible encontrar formas de resolver el problema planteado: un cambio cualitativo en la voz cambiando o generar ciertos parámetros de la señal de voz.

En el mercado de medios técnicos para proteger la información del habla, los dispositivos más habituales son los diseñados para cambiar la voz durante las conversaciones telefónicas. Como regla general, tienen una gama gradual de cambios de voz: infantil, femenina, masculina. Así, el dispositivo DTVC II (Corea del Sur) cuenta con un interruptor de modo de dos posiciones (hembra/macho), un interruptor de cuatro posiciones para el grado de cambio de voz (bajo/alto), un amplificador de rango de audio y un interruptor cambiador operacional. (la conversación no se interrumpe). El sistema de retroalimentación le permite escuchar la voz cambiada en tiempo real.

Un análisis de otros dispositivos económicos existentes diseñados para cambiar la voz durante conversaciones telefónicas ha demostrado que con mayor frecuencia cambian el rango de frecuencia de la señal del habla y, con menor frecuencia, el timbre de la voz a bajo o alto. El «nuevo» las voces no tienen la naturalidad y naturalidad del sonido adecuadas y, en algunos casos, tienen un tinte metálico, «frío» o «ronquera». Por otro lado, debido a la implementación técnica de los dispositivos, el número de grados de cambio de voz es limitado. Además, después de un breve intervalo de tiempo durante las conversaciones telefónicas utilizando dichos dispositivos, el suscriptor tiene claro que el interlocutor ha cambiado deliberadamente su voz. Los cambiadores de voz de mayor calidad tienen otro inconveniente importante: el alto coste.

En nuestra opinión, crear cambiadores de voz de alta calidad basados ​​​​en equipos de oficina estándar, como una computadora, es posible implementando el enfoque propuesto mediante el procesamiento de imágenes de sus imágenes gráficas. El software especializado de dicho sistema informático debe modificar tanto la estructura armónica de la señal del habla, que, por regla general, contiene las características individuales del hablante, como la función fonética de Pirogov, que es responsable del contenido semántico del mensaje del habla. Estos procedimientos ya se pueden realizar con imágenes de ecografías dinámicas, seguidas de la síntesis de una nueva señal de voz artificial utilizando una imagen gráfica modificada. Una combinación de tales influencias, con cálculos correctos, probablemente logrará el resultado deseado. Pueden surgir algunas dificultades al modificar las secciones de pausa. Por lo tanto, el problema de la determinación fiable de las áreas tonales y de ruido en un flujo de voz requiere solución.

Está claro que solo mediante la implementación de software utilizando medios técnicos estándar, un cambiador de voz de este tipo no solo será significativamente más barato que los análogos existentes, sino que también proporcionará un sonido verdaderamente natural y de mayor calidad de una señal de voz artificial. La ejecución del software permitirá cambios más fluidos en las voces de hombres a mujeres, de niños a adultos.

Un ejemplo de las capacidades de un cambiador de voz de alta calidad según una muestra dada es el programa «Voice Mouse». , desarrollado en el Parque Técnico de la Universidad Estatal de Moscú . Se obtienen resultados especialmente buenos con su ayuda al traducir texto a voz expresada por una voz femenina. En las voces masculinas, la naturalidad del sonido es mucho peor. Esto se puede ver comparando las imágenes de la ecografía en los paneles central e inferior (Fig. 2) con la imagen del panel superior.

Sin embargo, aún es demasiado pronto para hablar del funcionamiento en tiempo real de estos sistemas informáticos de voz artificial. La complejidad computacional de los algoritmos aún no permite implementar dicho modo en computadoras con una clase de procesador inferior a Pentium-III. Sin embargo, los experimentos realizados mostraron la promesa y la importancia práctica de la dirección de investigación elegida. En [7] se dan algunos ejemplos de cómo cambiar el tempo del habla y la voz según el enfoque propuesto.

Oclusión técnica del habla

Por oclusión técnica del habla nos referimos a tecnologías de enmascaramiento del habla relacionadas con métodos y medios de protección semántica de la información del habla y destinadas a garantizar la ilegibilidad del mensaje de voz protegido. Su implementación en la práctica puede expresarse mezclando el habla con ruido e interferencias y/o modificando el RS según parámetros calculados a partir de sus descripciones según una ley de transformación previamente conocida (cierre-restauración).

Un tipo común de cierre técnico del discurso es la mezclael RS original con interferencias para transmitir al canal de comunicación una nueva señal de audio ininteligible, que normalmente se encuentra en la misma banda de frecuencia que la original. Conociendo la naturaleza del cambio y el tipo de interferencia, en el extremo receptor de dicho canal de comunicación de voz protegido, su influencia se neutraliza mediante limpieza y amplificación adicional de la señal de voz restaurada. Así, en el panel inferior de la Fig. La Figura 3 muestra el resultado de eliminar la interferencia cuasiarmónica de la mezcla útil, que excede significativamente el nivel de energía del RS de interés, producida utilizando las herramientas de software Lazur.

En la parte superior — instalación de una poderosa interferencia cuasi-armónica en la señal del habla;
Abajo — eliminación de interferencia de la mezcla útil en el extremo receptor del canal de comunicación.

Arroz. 3. Enmascaramiento del habla con interferencia cuasi armónica

 Existen varios tipos de implementación de este tipo de enmascaramiento: cuando la interferencia es comparable en potencia a la RS original o lo supera significativamente, cuando la interferencia es ruido, cuasiarmónica o similar al habla, etc. Las cuestiones relativas a la elección del tipo de interferencia al construir dispositivos de protección acústica activa y la evaluación de la eficacia de la protección de la información acústica (del habla) se consideran en [2, 10, 15].

Bajo modificación habla entenderemos tal transformación de la señal de voz original, principalmente su función fonética, para lograr su ilegibilidad y/o irreconocible según una ley dada conocida, cuando los parámetros de esta transformación en el extremo transmisor del canal de comunicación son se conocen de antemano o están aislados de la propia señal original y no cambian durante toda la sesión de comunicación. En el extremo receptor, estos parámetros de conversión también se conocen de antemano o se separan de la señal modificada recibida para restaurarla al RS ilegible de acuerdo con la misma ley conocida previamente.

Tenga en cuenta que en el extremo receptor no siempre es necesario restaurar la señal original en la forma en que estaba originalmente. Esto se aplica, por ejemplo, a una PC sintetizada a partir de una imagen gráfica reconstruida a partir de una imagen de ecografía cerrada sin tener en cuenta los valores originales de los componentes espectrales de fase. Entonces las formas de onda (oscilogramas) del RS original y restaurado serán diferentes, y su inteligibilidad y sonido serán absolutamente iguales. Aquí se manifiestan plenamente las propiedades de la percepción auditiva humana, que depende débilmente de las relaciones de fase de los componentes más simples de banda estrecha de una señal de sonido compleja. De ahí la conclusión: si las imágenes de espectrogramas dinámicos calculados correctamente de varias señales acústicas son similares, entonces sonarán (se percibirán de oído) de la misma manera.

El principal problema que se resuelve al cerrar técnicamente el discurso utilizando el enfoque descrito es un cambio en la función fonética de Pirogov del RS original, en el que el discurso modificado será completamente ininteligible. Este problema se resuelve cambiando dinámicamente la envolvente del espectro de amplitud del RS, es decir, en última instancia modificando su estructura de formantes. Para evaluar la inteligibilidad final de RS cerrado y restaurado, los métodos descritos en [11] son ​​bastante aplicables.

Ejemplos de implementación práctica de métodos para dicha modificación RS incluyen la inversión de voz más simple en la banda de un canal de frecuencia vocal. En la Fig. 4. También se conocen leyes más complejas de transformaciones inversas mutuas del RS para lograr su ilegibilidad (ver Fig. 5).

También es posible una implementación combinada de métodos para cerrar técnicamente el RS: modificación del RS con aplicación simultánea de interferencia. Ejemplo: inversión de espectro más interferencia cuasi armónica.

Arriba hay una ecografía del fragmento del habla original;
En el centro — ecografía de una señal de voz con inversión a lo largo del espectro;
Abajo – ecografía de una señal de voz con inversión y desplazamiento cíclico de la envolvente del espectro de voz manteniendo su estructura armónica.

Fig. 4. Opciones de cierre técnico

En la parte superior hay un sonograma del fragmento de voz original;
En el centro hay un sonograma de la señal del habla con modificación de la envolvente del espectro a través de su giro dinámico;
A continuación se muestra una ecografía del fragmento central de la señal del habla, modificado por la función tiempo-frecuencia “tablero de ajedrez”.

Fig. 5. Opciones de cierre técnico (continuación)

Cabe señalar que en algunas publicaciones, los enmascaradores de voz, como los inversores de espectro y similares, se refieren al tipo más simple de codificadores estáticos analógicos, en los que la “clave” de conversión de voz no cambia durante toda la sesión o durante un grupo. de sesiones de comunicación. A pesar de que las tecnologías descritas para modificar la función fonética de Pirogov y la envolvente del espectro asociada se pueden utilizar para crear codificadores dinámicos cuando la clave de conversión cambia durante la sesión de una sección de señal de tiempo-frecuencia a otra, sin embargo, en nuestra opinión, estática Los codificadores deberían seguir clasificándose como dispositivos técnicos de cierre y considerándose enmascaradores de la palabra. Es decir, cuando hablamos de cerrar mensajes de voz, nos referimos al uso de leyes de transformación de voz específicas que operan constantemente, que introducen ilegibilidad en el RS y se implementan en enmascaradores de voz, y cuando hablamos de clasificar el RS, nos referimos al uso de criptografía. algoritmos.

De hecho, existe mucho debate sobre la separación de métodos y medios de cifrado criptográfico y supresión técnica de la expresión. Creemos que las tecnologías para el cierre técnico de RS, basadas en la explotación de las propiedades de la percepción auditiva humana, tienen derecho a ser consideradas de forma independiente en el marco del problema general de la seguridad de la información, fuera de las tecnologías de protección criptográfica y, especialmente, no como un subtipo específico del mismo. Aquí conviene establecer analogías con los métodos y medios de compresión de información, que, como saben, aunque en la mayoría de los casos son una etapa del procesamiento preliminar de la clasificación de datos criptográficos, en muchas aplicaciones requieren un uso separado.

Transmisión oculta de mensajes de voz

Actualmente, las medidas OBRS pueden tener como objetivo no solo prevenir la grabación no autorizada de información de voz protegida, sino también ocultar el hecho mismo de su transmisión, utilizando para estos fines medios técnicos estándar (STS), protocolos de intercambio de información tradicionales y convencionales y disponibles públicamente. canales de comunicación (OKS).

En los últimos años, esta área de la seguridad de la información en los sistemas informáticos de telecomunicaciones, llamada “estegología” (a veces “sigilología”), se ha desarrollado activamente en todo el mundo.

p>

Particularmente popular recientemente se ha vuelto una parte de la estegología llamada «esteganografía», utilizada en el campo de ocultar información confidencial en imágenes gráficas transmitidas a través de redes informáticas. Al mismo tiempo, los avances logrados en el desarrollo de dispositivos para la transmisión de mensajes de voz, así como en la tecnología informática, abren nuevas oportunidades tanto para la transmisión encubierta de información confidencial en señales de audio y voz analógicas y digitales, como para la transmisión encubierta de transmisión en contenedores de información de diversos tipos , basada en el uso de tecnologías de telefonía celular, informática y multimedia en desarrollo dinámico [6]. Esta dirección de las tecnologías digitales en el campo de la protección de información confidencial oculta dentro o encima de una señal de audio transmitida abiertamente ahora se denomina comúnmente «esteganofonía».

Actualmente, se utilizan ampliamente los métodos de esteganofonía informática, basados ​​​​en el uso de ruido natural, que contienen matrices digitales obtenidas mediante métodos de conversión estándar a partir de señales analógicas acústicas y de vídeo. Estos ruidos son errores de cuantificación y no se pueden eliminar por completo. El uso de bits de ruido para transmitir información confidencial adicional le permite crear un canal de transmisión de datos encubierto. Como bits de ruido se suelen considerar los bits menos significativos de los valores de muestra, que son ruido desde el punto de vista de la precisión de la medición y transportan la menor cantidad de información contenida en la muestra. Estos bits suelen denominarse bits menos significativos (LSB) [4,9].

Uno de los métodos más comunes de ocultación esteganofónica de información confidencial es un método basado en el uso de datos de audio digital (y/o cualquier otro multimedia). En [9] se demostró que estos flujos naturales de archivos de audio NZB todavía no son aleatorios y tienen una cierta agrupación de ceros y unos consecutivos, lo que se viola cuando se introduce información adicional. Se han desarrollado ciertos criterios estadísticos para detectar el hecho de que un mensaje de información confidencial está oculto en el BZ de las señales de audio.

El análisis estadístico de datos sonoros realizado en [4, 9] permitió identificar una serie de propiedades importantes que influyen en el secreto de los datos confidenciales y, en consecuencia, en su seguridad utilizando métodos similares que utilizan bits de ruido. Entre tales propiedades, es necesario destacar las siguientes:

  • heterogeneidad de secuencias de muestras;
  • la presencia de ciertas dependencias entre bits en las muestras;
  • la presencia de ciertas dependencias entre las propias muestras;
  • probabilidad desigual de distribuciones condicionales en la secuencia de muestras;
  • presencia de largas series de bits idénticos;
  • presencia de correlación entre bits de orden bajo y alto.

Estas propiedades se observan en diversos grados en la mayoría de los archivos de sonido y pueden usarse para construir varios criterios estadísticos que determinan el hecho de ocultar información en el NZB. Es por eso que estos métodos de esteganofonía informática se utilizan cada vez menos en la práctica.

Hoy podemos proponer los siguientes requisitos para ocultar información de voz confidencial (CSI) y colocar marcadores esteganofónicos en señales, matrices y formatos de datos de varias naturalezas:

  • la percepción de señales y datos con el CRI integrado en ellos debe ser prácticamente indistinguible de la percepción del mensaje original «abierto» contenido en una señal o conjunto determinado;
  • datos de voz confidenciales transmitidos a través del SS, camufladas por diversas señales o en forma implícita contenida en sus parámetros no deben detectarse fácilmente en estas señales portadoras mediante los métodos generalizados y los medios técnicos de análisis actualmente disponibles;
  • en una serie de aplicaciones, la configuración y detección de marcadores esteganofónicos no debe depender de la sincronización de estos procesos y de la presencia de estándares;
  • se deben implementar métodos especiales para configurar e identificar marcadores esteganofónicos sobre la base de tecnología informática estándar o software y hardware especiales basados ​​en ella;
  • debería ser posible incrustar y detectar signos de autenticidad en una señal acústica (de voz) que aparecen cuando se copia o modifica ilegalmente, independientemente del tipo de presentación y transmisión de esta señal (analógica o digital);
  • Debería ser posible ocultar el CRI en los datos de las matrices, independientemente del tipo de información presentada en ellas.

Daremos algunos ejemplos del uso del enfoque propuesto de procesamiento de sonido mediante el procesamiento de su Imagen gráfica en problemas de esteganofonía informática, descritos en detalle en [6].

Así, es posible transmitir y almacenar una señal de voz en otra señal de audio o vídeo, desapercibida para el oído, y también combinar tecnologías de esteganofonía con tecnologías de esteganografía, «disolviendo» imágenes de espectrogramas acústicos dinámicos en imágenes determinadas — «contenedores», con su posterior desarrollo, síntesis y sonido en el extremo receptor del OKS.

Las imágenes de ecografía se pueden utilizar para transmitir y almacenar el habla en papel como estegomarcadores. Al implementar tecnologías de «firma de voz», relacionadas con el documento protegido en significado y contenido aproximadamente de la misma manera que una firma digital electrónica, se pueden aplicar de 2 a 4 minutos de voz con calidad de sonido telefónico a una hoja de papel estándar en el forma de una variedad de dibujos estampados. En este caso, la autenticidad del documento se puede establecer no solo si existen firmas y sellos adecuados, sino también a partir de la información contenida en la “firma de voz”, mediante escaneo, síntesis y expresión de la cual se pueden escuchar los puntos clave de el contenido del documento, expresado por el responsable. La discrepancia entre la información indicada y la información contenida en el documento indica su falsificación. Es casi imposible falsificar un “sello de voz” o una “firma de voz”. Tenga en cuenta que una tecnología tan económica de “firma de voz” se puede implementar en equipos de oficina estándar: una computadora con una tarjeta de sonido, además de una impresora y un escáner.

Utilizando el enfoque propuesto para el procesamiento de señales de audio, es posible implementar una gran cantidad de métodos muy diversos de esteganofonía informática, exclusivos para cada tarea específica de transmisión encubierta de SRI o marcado con sonidos o voz.

Cabe señalar que los métodos considerados para establecer marcadores esteganofónicos y la transmisión encubierta de CRI en la mayoría de los casos no requerirán sincronización de los procesos de su introducción: identificación o la presencia de estándares de comparación, como resultado de lo cual pueden usarse en la comunicación. canales no solo al recibir y transmitir señales y datos, sino también en los modos de almacenamiento. Por lo tanto, pueden encontrar aplicación en contestadores automáticos analógicos y digitales, sistemas de correo de voz estándar, telefonía informática, etc., así como en la transferencia «esteganofónica» Grabaciones procesadas en casetes de audio, vídeo y disquetes.

Si hablamos de la transmisión de información confidencial en sonidos y palabras, las evaluaciones de los valores de velocidad permitidos para la transmisión secreta de información confidencial en señales de audio han demostrado que hoy en día estos valores no superan los 100 bits/s. Hasta el momento, estos son los valores máximos que se pueden alcanzar utilizando diversos métodos para ocultar información confidencial en el habla o señales acústicas mediante el procesamiento adecuado de imágenes gráficas de sus espectrogramas dinámicos. Sin embargo, se puede suponer que tales velocidades probablemente serán suficientes para la transmisión rápida de mensajes importantes y confidenciales en el proceso de comunicación verbal entre dos suscriptores a través de una línea telefónica o mediante la recepción y transmisión de casetes de audio que contienen señales de audio. “contenedores” con un marcador de información, así como otras aplicaciones. De hecho, a tales velocidades, en un minuto de señal de voz durante una conversación telefónica, se pueden transmitir en secreto aproximadamente tres páginas de texto y unas diez fotografías en blanco y negro.

Es posible que surjan nuevos métodos de transmisión enmascarada de información confidencial en señales acústicas: «contenedores» basados ​​​​en los métodos propuestos para procesar imágenes gráficas de sonido, como resultado de lo cual la eficiencia de la información de los sistemas informáticos para la transmisión encubierta de datos puede aumentar significativamente. aumentar.

Por lo tanto, con base en lo anterior, se puede suponer que en el futuro una de las áreas prometedoras para proteger los mensajes de voz en canales de comunicación y locales dedicados puede considerarse la creación y desarrollo de sistemas computarizados de enmascaramiento del habla junto con o cuando se usan junto con tecnologías tradicionales para la protección semántica de mensajes de voz, a saber, clasificación de señales de voz basadas en algoritmos criptográficos.

La elección de métodos y medios específicos de enmascaramiento de voz como uno de los tipos de protección semántica de mensajes de voz dependerá de los requisitos prácticos para el sistema de protección del habla y las características técnicas del canal de transmisión de información del habla.

Literatura

  1. Abalmazov E.I. Métodos y medios de ingeniería para contrarrestar las amenazas a la información//Grotek, 1997, 248 págs.
  2. Abalmazov E.I. Nueva tecnología para proteger conversaciones telefónicas//Equipo especial, No. 1, 1998, p. 4 – 8.
  3. Agapiev A.N., Milashenko V.I. Identificación de usuarios de sistemas informáticos basados ​​​​en tecnologías del habla //Confident, No. 6, 1999, p. 37 –45.
  4. Ukov V.S., Romantsov A.P. Evaluación del nivel de secreto de los canales esteganográficos multimedia para almacenar y transmitir información//Equipo especial, No. 6, 1999, p. 52 – 59.
  5. Dvoryankin S.V. Tecnologías informáticas para proteger mensajes de voz en canales de telecomunicaciones — M.: MTUSI, 1999, 52 pp.
  6. Dvoryankin S.V. Transmisión encubierta de información confidencial en señales de audio y voz //“BDI”, No. 2 (30), 2000, p. 12 – 16.
  7. Dvoryankin S.V. Procesamiento de imágenes digitales de espectrogramas dinámicos de señales de audio en problemas de garantía de la seguridad de las comunicaciones de voz//Equipo especial, No. 3, 2000, p. 37 – 45.
  8. Dvoryankin S.V., Devochkin D.V. Métodos para cerrar señales de voz en canales telefónicos//Protección de la información. Confidencial, N° 5, 1995, pág. 45 – 54.
  9. Dvoryankin S.V., Romantsov A.P. Método estadístico de análisis esteganofónico de archivos de audio.//Resúmenes de informes del IV Interregional científico y técnico. seminario «Uso de tarjetas plásticas y protección de la información». — M.: MNTORES im. COMO. Popova, 1999, pág. 51 – 54.
  10. Zolotarev V.I. Nueva solución para proteger negociaciones confidenciales//Equipo especial, No. 5, 1999, p. 26 – 30.
  11. Kalintsev Yu.K. Inteligibilidad del habla en codificadores de voz digitales. — M.: Radio y Comunicaciones, 1991, 140 págs.
  12. Kravchenko V.B. Protección de la información del habla en los canales de comunicación//Equipo especial, No. 4, 1999, p. 2 – 9, núm. 5, 1999, pág. 2 – 11.
  13. Petrakov A.V., Lagutin V.S. Protección del tráfico de suscriptores — M.: Radio y Comunicaciones, 2001, 504 p.
  14. Sudarev I.V. Protección criptográfica de mensajes telefónicos//Equipo especial, No. 2, 1998, p. 47 – 55.
  15. Khorev A.A., Makarov Yu.K. Evaluar la eficacia de la protección de la información acústica (del habla)//Equipo especial, No. 5, 2000, p. 46 – 56.
    Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
    Принять