Problemas y soluciones al problema de detectar grabadoras de voz modernas ..
Problemas y soluciones al problema de la detección de grabadoras de voz modernas.
Gudkov Sergey Aleksandrovich
Equipo especial 2001, №3
La complejidad de la tarea de detectar grabadoras de voz modernas radica en el hecho de que, por un lado, es necesario registrar una radiación electromagnética muy débil de una grabadora de voz en funcionamiento. Esto requiere un medidor de campo electromagnético sensible. Por otro lado, es necesario no reaccionar ante las interferencias industriales y la radiación de otros dispositivos, que pueden ser muy fuertes. Además, el rango de frecuencia, la naturaleza y la forma de las vibraciones electromagnéticas del registrador y de las fuentes de interferencia son los mismos.
Terminología:
Señal analógica— tal señal eléctrica, cuya amplitud en un momento arbitrario puede tomar muchos valores en un cierto rango de niveles, llamado rango dinámico.
Señal digital — tal señal eléctrica, cuya amplitud en un momento arbitrario puede tomar dos valores determinados, uno de los cuales es el nivel lógico «1» y el otro — nivel lógico «0». De ahí que la forma digital de grabación de señales — Esta es una secuencia de ceros y unos escrita en un chip de memoria, medio magnético u óptico.
Espectro de la señal — Tal representación de una señal eléctrica tomada durante un cierto período de tiempo, que está representada por un conjunto de amplitudes obtenidas en la salida de un grupo de filtros de paso de banda a través de los cuales pasa esta señal. Además, los filtros de paso de banda tienen la misma banda de paso, estas bandas no se cruzan y la distancia entre las frecuencias centrales es igual a la banda de paso. El número de filtros determina el número de armónicos en el espectro.
Interferencia, espectro de interferencia— dentro del alcance de este artículo — Todas estas son señales y sus componentes espectrales que no son el resultado de la grabadora de voz.
Desde el punto de vista del usuario, un detector de grabadoras de voz modernas debe resolver tres problemas:
- proporcionar un rango de detección aceptable para la mayoría grabadoras de voz;
- minimizar la probabilidad de perder una señal;
- minimizar la probabilidad de falsos positivos.
Para evaluar la cantidad de trabajo necesario para crear un detector de este tipo, es necesario considerar todos los grupos de grabadoras de voz modernas por la radiación electromagnética que crean, ya que puede ser la única señal que desenmascare un grabadora de voz.
Según la radiación electromagnética generada, las grabadoras de voz se pueden dividir en dos grupos: las que cuentan con un motor eléctrico en su diseño y las que cuentan con chips de memoria para registrar información.
El primer grupo incluye los siguientes dispositivos:
- construido sobre el principio clásico de grabar señales eléctricas en cinta magnética en forma analógica e implica la presencia de un mecanismo de unidad de cinta, además de aquellos sin borrado y generador de polarización (GSP);
- igual que el punto 1, pero con GAA.
- construido sobre el principio de grabar señales eléctricas en cinta magnética en formato digital en un casete DAT y con un mecanismo de cinta más complejo, similar al de una videograbadora;
- basado en el principio de grabación de señales eléctricas en un medio de disco magnético u óptico en forma digital, por ejemplo, en un minidisco desarrollado por SONY (medio magnético) o en un disco láser regrabable (medio óptico) . También tienen un motor eléctrico.
En el futuro, este grupo de grabadoras de voz se llamará — «cinemático».
La naturaleza de la radiación electromagnética generada por este grupo de grabadoras de voz es la misma. La fuente de máxima radiación es el motor eléctrico y el GPS (sólo para el subgrupo 2). La forma de onda del motor eléctrico es de naturaleza pulsada con el armónico fundamental en el rango de 80 a 300 Hz. Otros componentes armónicos de esta señal caen en este rango con amplitudes más pequeñas. La radiación del GPS es casi sinusoidal y oscila entre 20 y 60 KHz.
Otro grupo de grabadoras de voz se basa en el principio de grabar señales eléctricas digitalmente en un chip de memoria de cristal. Además, se puede utilizar memoria no volátil (memoria flash) o, con menor frecuencia, memoria dinámica o estática, que requiere una fuente de alimentación constantemente conectada. En el futuro, este grupo de grabadoras de voz se denominará — «digitales» [4].
Estructuralmente «digital» Las grabadoras de voz se pueden fabricar en dos versiones:
- La función de grabadora de voz es básica;
- La función de grabadora de voz es opcional.
El segundo subgrupo incluye dispositivos:
- algunos modelos de teléfonos móviles;
- la mayoría de las bolsas de «bolsillo» minicomputadoras, como PocketPC;
- Reproductores MP3 con capacidad de grabación.
Cabe señalar que teóricamente el concepto de «digital» El dictáfono es un dispositivo que registra información de voz en algunos medios en forma digital. Además, el soporte puede ser un disco o una cinta. Dichos dispositivos tienen un mecanismo cinemático y, en el marco de este artículo, se clasifican como dispositivos «cinemáticos». Dictáfonos.
¿Cuál es la fuente de radiación en la tecnología «digital»? ¿Dictáfonos? Por la naturaleza de la radiación, la radiación «digital» Las grabadoras de voz se pueden dividir en subgrupos:
- tener un convertidor de voltaje de pulso, por ejemplo, si se usa una batería de 1,5 voltios como fuente de energía;
- tener un diseño de memoria flash extraíble;
- comprimir información de voz utilizando un procesador de señales especializado;
- que tengan una pantalla de cristal líquido;
- tener varios accesorios conectados, como un micrófono externo, control remoto, etc.;
- tener una carcasa capaz de proteger la grabadora de voz contra la radiación.
Los estudios han demostrado que el nivel máximo de radiación de los dispositivos «digital» Las grabadoras de voz para todos los subgrupos, por regla general, se encuentran en el rango de 20 a 120 kHz. Para grabadoras de voz con convertidor de voltaje por impulsos, el nivel más alto se observa en la frecuencia de conversión. Estas grabadoras de voz se pueden detectar a un alcance máximo: — más de un metro.
Las grabadoras de voz con memoria flash extraíble contienen inevitablemente un cable de varias docenas de conductores de varios centímetros de largo. Transporta señales de dirección y datos para escribir en la memoria. Estas señales son digitales, lo que significa que tienen flancos pronunciados y una amplitud igual a la tensión de alimentación (normalmente 3 voltios). Un número tal de conductores largos que transportan tales señales produce ráfagas similares a ruidos en algunas regiones de frecuencia. Si se utiliza un procesador de señal, típico de los equipos de fabricantes occidentales, las ráfagas espectrales se amplifican, ya que dicho procesador consume más del 50% de la energía necesaria para el funcionamiento del registrador. Los grabadores de voz de estos dos subgrupos se pueden detectar a una distancia de 50 cm a 1 metro.
En los grabadores de voz con pantalla de cristal líquido, este último también es una fuente de formación de campos electromagnéticos. Además, su energía aumenta con el tamaño de la pantalla, así como si es gráfica, y sobre todo con el color. La presencia de este tipo de pantallas es más típica de dispositivos en los que la función de grabadora de voz es adicional — teléfonos móviles, minicomputadoras, etc. El alcance de detección de dichos dispositivos puede superar el metro.
En el caso de grabadoras de voz con un micrófono externo conectado o un mando a distancia, el cable de conexión es una fuente adicional de radiación relativamente potente.
En el caso de los grabadores de voz con carcasa metálica, el alcance de detección disminuye bruscamente, ya que la carcasa protege la radiación y, dependiendo de la calidad del blindaje, oscila entre varias unidades y 30 cm. Sin embargo, existe la posibilidad de que se formen emisiones bajas. -subarmónicos de frecuencia, frente a cuya radiación dicho blindaje es ineficaz. En cualquier caso, las grabadoras de voz con carcasa metálica pertenecen a la clase de equipos especiales y están especialmente diseñadas para minimizar la radiación.
Desde el punto de vista de la ingeniería eléctrica, una grabadora de voz consta de un conjunto de circuitos eléctricos cerrados, algunos de los cuales tienen una inductancia significativa, lo que conduce a la formación de radiación electromagnética alrededor de una grabadora de voz en funcionamiento con un cierto patrón direccional e intensidad. De ello se deduce que cualquier grabadora de voz puede ser detectada por algún dispositivo electrónico a cierta distancia.
Considere la tarea de medir el nivel del componente magnético del campo electromagnético creado por una grabadora de voz. Para ello, asumimos que no existen otras fuentes de campo. La solución más sencilla a este problema se presenta en forma de diagrama de bloques en la Fig. 1.
Una antena magnética (MA) tiene una característica de amplitud-frecuencia que selecciona el rango de frecuencia requerido. El amplificador de señal (SA) de la antena debe tener un ruido intrínseco mínimo, lo que determina la sensibilidad de todo el sistema y, en consecuencia, el rango de detección. Teóricamente, el nivel de respuesta del detector de umbral (TD) se puede establecer en el valor del ruido propio máximo del amplificador. En consecuencia, exceder este nivel indicará la presencia de una fuente de campo en el dispositivo indicador (ID). La distancia posible a la grabadora de voz para un detector de este tipo está determinada por su propio ruido y oscila entre decenas de centímetros y 2 metros, según el tipo de grabadora de voz. En condiciones reales, en algún punto del espacio siempre hay un cierto nivel integral de radiación electromagnética creada por muchas otras fuentes cercanas y distantes. Este nivel puede exceder significativamente el ruido inherente del dispositivo de detección. Además, algunas fuentes (por ejemplo, la corriente alterna en una red de 220 V) crean un nivel de campo muy alto y, de hecho, bloquean la capacidad de medir otros campos. Estas condiciones llevan a la necesidad de utilizar no una bobina, sino dos, espaciadas a cierta distancia y conectadas de manera diferencial, como antena magnética (MA). Una antena magnética de este tipo se convierte en un gradiómetro [2]. En este caso, se consigue un debilitamiento significativo de la influencia de una fuente remota, especialmente cuando aumenta la distancia entre las bobinas. Desafortunadamente, el nivel de señal de una fuente cercana (dictáfono) también baja. Pero este es el precio por la posibilidad misma de medir el campo de una fuente cercana. Considerando la acción de los parásitos «parasitarios» campos electromagnéticos, para registrar la radiación de la grabadora de voz, se necesita una unidad de medición del nivel de señal (SIUS), que establecerá el nivel del detector de umbral (TD) al valor medido cuando se reciba un comando del dispositivo de control (CD ). Esto lo controla el operador que realiza la detección. Se puede observar que registrar la radiación de la grabadora de voz en un dispositivo de este tipo sólo es posible si esta radiación es mayor que el nivel de fondo en un lugar determinado. Por lo tanto, el rango de detección real ahora depende en gran medida del nivel del fondo y puede disminuir varias veces. Esta es una limitación física para los detectores de banda ancha. Con base en este principio, el canal de detección para equipos de grabación de audio y video se construyó en el dispositivo ST 041 [7], fabricado por la empresa «Smersh Technics» (San Petersburgo).
Consideremos formas de aumentar la eficiencia de este dispositivo. Para ello es necesario resolver al menos dos problemas: reducir el ruido propio del dispositivo e intentar distinguir las fuentes del campo electromagnético por frecuencia. El ruido intrínseco del dispositivo discutido anteriormente fue determinado por las características de ruido del chip amplificador y el ancho del rango de frecuencia de la medición. De ello se deduce que la reducción de la banda de frecuencia conducirá a una disminución del ruido propio del detector. Este problema se resuelve utilizando un grupo de filtros de paso de banda que cubren el rango de frecuencia de interés. Aumentar el número de filtros conduce a una mejora en la relación señal-ruido. Además, estos mismos filtros solucionan el segundo problema — Le permite localizar la señal por frecuencia. Como resultado, el dispositivo tiene la capacidad de «ver» fuentes muy débiles de radiación electromagnética en el contexto de otras muy fuertes, lo cual es absolutamente imposible para un detector de banda ancha. Sobre esta base se construyó otro dispositivo para detectar grabadoras de voz: — ST 0110 [6], fabricado por «Smersh Technics». El dispositivo se basó en modelos algorítmicos [1,2] utilizados previamente en el dispositivo PTRD-018.
El diagrama de bloques del dispositivo ST 0110 se muestra en la Fig.2.
Hay otro problema asociado con la naturaleza realmente fuerte y no estacionaria del campo electromagnético creado por partículas «parásitas». fuentes remotas. Estas fuentes pueden aparecer y desaparecer, y también cambiar la intensidad de su radiación de forma completamente caótica. Para el detector, esto será similar a la situación de encender y apagar la grabadora. Esta contradicción se puede resolver utilizando dos rutas de cálculo que funcionan sincrónicamente. En este caso, los resultados de estos cálculos se restan mutuamente. Idealmente, esto conducirá a la supresión completa de la influencia de fuentes de campo remotas. El dispositivo sólo responderá a la aparición y desaparición de una fuente en la zona cercana, pero no equidistante de las antenas magnéticas (Fig. 3). El radio del campo cercano aumenta al aumentar la distancia («base») entre las antenas magnéticas (MA 1, MA 2). Esta distancia debe ser proporcional a la distancia al objeto detectado.
Lo que nos impide resolver completamente el problema de la naturaleza no estacionaria de las fuentes remotas no es la correspondencia absoluta de las características de amplitud-frecuencia (AFC) de dos rutas que operan sincrónicamente y la coincidencia no absolutamente exacta del ángulo entre el vector del campo de la fuente y la orientación de antenas magnéticas, así como la interferencia y reflexión de ondas electromagnéticas. Este tipo de inconsistencia conduce a la necesidad de reducir ligeramente la sensibilidad del dispositivo para reducir la probabilidad de falsas alarmas.
Volvamos a la Fig. 2. Para suprimir al máximo la influencia de fuentes remotas (monitores, televisores, equipos de oficina y otros equipos), se introducen en el dispositivo rutas de funcionamiento paralelo y sincrónico para el primer y segundo canal. Estos canales funcionan independientemente unos de otros hasta la resta de los espectros promediados. La resta mutua y el procesamiento posterior permiten determinar cuál de las antenas está más cerca de la fuente, es decir, sin perder la capacidad de localización espacial.
El procesamiento de la señal en cada canal ocurre de la siguiente manera. Dos antenas magnéticas independientes (MA LF y MA HF) convierten el componente magnético del campo electromagnético en una señal eléctrica, que ingresa al amplificador de señal (SA). El ancho de banda de la combinación de antena magnética de baja frecuencia y amplificador (MA LF y US) es de 50-400 Hz, suficiente para detectar señales «cinemáticas». grabadoras de voz. Se utilizó un gradiómetro como antena magnética para esta banda de frecuencia. El ancho de banda de la combinación de antena magnética de alta frecuencia y amplificador (MA HF y US) es de 20-120 KHz, cuyo objetivo es detectar señales «digital». grabadoras de voz. A continuación, las señales amplificadas se envían a un convertidor analógico a digital (ADC), se convierten a formato digital y todas las operaciones posteriores las realiza una computadora.
Las investigaciones han demostrado que el rango dinámico resultante del detector debería ser superior a 120 dB. Esto se debe principalmente a la existencia de radiación procedente de una red de 220 voltios. El rango dinámico de las señales de las grabadoras de voz no supera los 70 dB. En la parte inferior, el alcance está limitado por el propio ruido del detector. De ahí la necesidad de intentar en la etapa inicial de procesamiento minimizar la influencia de los armónicos de una red de 220 voltios, reduciendo así el rango dinámico de cálculo a 70 dB y simplificando la implementación del dispositivo. Para ello, se implementa en hardware y software un filtro de muesca en peine (REF), que proporciona supresión de señal en frecuencias múltiplos del armónico fundamental de la tensión de la red de suministro. Nivel de supresión — hasta 60 dB. Debido a la inestabilidad de la frecuencia de la red, también se requiere un frecuencímetro de seguimiento (FM), que mida la frecuencia de la red de 50 Hz, con la precisión necesaria para ajustar el rechazo de armónicos fundamentales. Como resultado, es posible utilizar un ADC con un rango dinámico de 70 dB y realizar cálculos adicionales en el marco de cálculos de dieciséis bits. La amplitud máxima de la señal es monitoreada por la unidad de control del rango dinámico de la señal (BKDDS), que emite una señal de sobrecarga y prohíbe más cálculos. Si la señal digitalizada está dentro del rango dinámico del ADC, se realiza una transformada rápida de Fourier (FFT), lo que da como resultado una descomposición de la señal en componentes armónicos, lo que equivale a utilizar un banco de filtros de paso de banda. El número de dichos filtros se seleccionó basándose en un estudio de la inestabilidad temporal y el ancho de banda de frecuencia de las señales para varias grabadoras de voz típicas. El valor óptimo resultó ser 256 armónicos cada uno para las bandas de baja y alta frecuencia. La desventaja de la FFT es el llamado efecto Gibbs, que se expresa en el ensanchamiento de los picos espectrales en la parte inferior del rango de amplitud y la aparición de muchos lóbulos laterales [3]. Para reducir los lóbulos laterales, antes de calcular la FFT, se superpone a la señal una función de ponderación de Kaiser-Bessel (ventana), que suprime con mayor fuerza los lóbulos laterales y permite resolver señales grandes y pequeñas estrechamente espaciadas en frecuencia. El precio de esto es cierta ampliación de los picos espectrales en la parte superior del rango de amplitud, que puede compensarse fácilmente aumentando los puntos de la transformada de Fourier.
Después de calcular la FFT, el espectro de la señal ingresa a una unidad de promedio (ABU) para suprimir los componentes de ruido en el espectro y aislar los componentes espectrales estables. Se utilizó un promedio exponencial sobre el conjunto [3]. El coeficiente promediado se selecciona experimentalmente en función del nivel de inestabilidad de los componentes espectrales de las señales de la grabadora de voz de prueba. El proceso de promediado está controlado por una unidad de control de energía espectral (SEC), que bloquea cálculos adicionales durante ráfagas espectrales integrales para un espectro instantáneo (no promediado) por encima de un umbral específico. Esto evita que el dispositivo reaccione a ruidos impulsivos, vibraciones y otras perturbaciones breves del campo electromagnético. A continuación, los espectros de señal promediados para el primer y segundo canal se restan mutuamente en módulo en los bloques MOD(2-1) y MOD(1-2), lo que da como resultado la eliminación de armónicos que son iguales en frecuencia y amplitud. Los armónicos restantes del espectro ingresan a la unidad de comparación de espectro (SCU), donde cada armónico se compara con los armónicos del espectro provenientes del generador de espectro de interferencia (ISP). La formación del resultado de la comparación, además del módulo de la diferencia armónica, está influenciada por el comportamiento de los armónicos del espectro vecinos. La unidad FSP funciona en determinados momentos basándose en comandos de la unidad de control (UPR), por ejemplo, durante la adaptación al entorno electromagnético circundante. El resultado de comparar los espectros se envía a un detector de umbral (TD), cuyo umbral de respuesta determina la sensibilidad de todo el sistema. En la etapa final del análisis, el resultado de la detección del umbral se selecciona en el tiempo, es decir, solo se seleccionan aquellos eventos cuya duración excedió un intervalo de tiempo específico. Esto ocurre en el bloque de selección de tiempo (TSB), lo que permite ignorar señales relativamente cortas, que en este caso se consideran falsas. El intervalo de selección de tiempo se selecciona de 30 segundos a dos minutos. Desde la salida de la unidad de selección de tiempo (TSB), la señal de detección de la grabadora de voz se envía al dispositivo de visualización (ID). El período de análisis único de un par de canales está determinado principalmente por el tiempo de generación de una muestra de muestras para la ruta de baja frecuencia (grabadoras de voz "cinemáticas») y es igual a aproximadamente un segundo. Si sólo detecta señales «digital» grabadoras de voz, la velocidad de sondeo de canales aumenta cuatro veces.
El dispositivo ST 0110 funciona junto con un dispositivo «de bolsillo» una minicomputadora de clase PocketPC o cualquier computadora de escritorio compatible con IBM, incluida una computadora portátil. Número máximo de canales (zonas de detección) — 16, para una computadora de escritorio se expande a 32 o más.
Para ilustrar las diferencias en la radiación de diferentes grabadoras de voz, a continuación se muestran las características espectrales obtenidas utilizando el dispositivo ST 0110 al final del ciclo de procesamiento de la señal — después del detector de umbral.
En Fig. 4 y 5.Se dan las características de frecuencia de la radiación de fondo típica en un entorno de oficina. En la parte de baja frecuencia (hasta 300 Hz), se observan armónicos múltiplos de la frecuencia de 50 Hz, así como componentes espectrales del escaneo de fotogramas de los monitores. Cabe destacar que la influencia de estas fuentes de bacterias «parasitarias» La radiación se atenúa mediante el uso de un gradiómetro y un filtro de muesca en más de 60 dB, y el gráfico muestra sólo lo que no se pudo suprimir. En la parte de alta frecuencia (de 10 a 110 kHz) son visibles los armónicos del escaneo horizontal de monitores, televisores y portátiles. Además, el equipo enumerado se encuentra a una distancia de 3 a 10 metros de la antena magnética.
La
Figura 6 muestra las características de frecuencia de la radiación «digital». Grabadora de voz Olympus V-90 a una distancia de 40 y 100 cm de la antena magnética. En este dispositivo, la radiación es creada por un convertidor de voltaje, cuya frecuencia cambia lentamente a medida que la batería se descarga.
En Fig.7Se dan las características de frecuencia de la radiación «digital». Grabadora de voz Olympus D1000 a una distancia de 25 y 50 cm de la antena magnética. El espectro de emisión de esta grabadora de voz es inestable y su mayor parte se encuentra en la banda de 30 a 50 kHz.
En Fig. 9Se dan las características de frecuencia de la radiación «cinemática» grabadora de voz con GPS — Sony M-909. Distancia a la antena magnética — 25 y 70 cm La señal del GPS aquí (40 KHz) es más potente que la señal del motor eléctrico (108 Hz).
En Fig.Se dan las características de frecuencia de la radiación «cinemática» Grabadora de voz Olympus S724 a una distancia de 30 y 90 cm de la antena magnética para diferentes velocidades de cinta. Para este aparato, sólo se observan los componentes espectrales provocados por la rotación del motor eléctrico.
¿Qué formas se pueden identificar para mejorar aún más la eficacia del detector de grabadoras de voz? Por un lado — Se trata de una mejora en las características de ruido de la ruta analógica mediante el uso de microcircuitos de amplificación de señal modernos y especializados. Por otro lado, trasladar el análisis de las características espectrales del campo electromagnético al plano de las redes neuronales. El soporte matemático de las redes neuronales es un desarrollo de la teoría del filtrado adaptativo. La detección de grabadoras de voz es una tarea mal algorítmica. Para resolver estos problemas se requiere el trabajo constante de expertos cualificados o sistemas de automatización adaptativos, como las redes neuronales. Las redes neuronales son capaces de generar un modelo de proceso no lineal basado en los resultados del entrenamiento adaptativo de la red.
Además, el rango de detección puede aumentar la transferencia del rango de frecuencia analizado a una región de frecuencia más alta hasta 300 MHz [5] y, adicionalmente, el registro del componente eléctrico del campo electromagnético emitido. Pero la implementación de todos estos métodos conducirá a un aumento significativo en el costo del dispositivo.
Literatura.
- A.A. Zharov, M.B. Stolbov, S.A. Gudkov, V.M. Danilov «Dispositivo de detección de señales» //Patente de invención N° 2140656. Inscrita en el Registro Estatal de Invenciones el 27 de octubre de 1999.
- A.A. Zharov, M.B. Stolbov «Es difícil buscar una grabadora de voz en un bolsillo oscuro… especialmente si no tienes PTRD 018» //Confiado, 1997, No. 1, págs. 53-58.
- A.P. Kulaichev «Control de procesos informáticos y análisis de señales». M: NPO «Informática y Computadoras», 1999, p.7-127
- V.S. ukov «Equipo especial con «sólido» memoria: versatilidad, calidad, fiabilidad» //Tecnología especial, 2000, No. 4, págs. 21-28.
- «Análisis comparativo de grabadoras de voz digitales.» http://ess.ru/dbtexts/analmat/dmanal/dmanal.htm