Estudio de expertos del formato GSM.
Estudio experto del Formato GSM
El estudio de los fonogramas para detectar la presencia/ausencia de signos de edición o cambios realizados durante el proceso de grabación o después del mismo es una de las principales tareas de diagnóstico de la fonografía forense.
Por ejemplo, usaremos un esquema simple para presentar un fonograma a un experto:
1. La grabación no fue realizada por trabajadores operativos, sino por un particular que no tiene acceso al tráfico cifrado del proveedor que proporciona este servicio de comunicación. En este caso, lo más habitual es utilizar una grabadora de voz colocada cerca de un teléfono móvil. (Según un examen real, en 2003, los trabajadores operativos monitorearon y grabaron en casetes de audio conversaciones GSM en equipos estacionarios (probablemente del proveedor), mientras que el fonograma no contenía la transmisión de paquetes de un teléfono celular).
2. Se realiza la edición informática del fonograma. Después de la edición, a través de un canal acústico o mediante memoria flash, o mediante una grabadora de voz equipada para grabar, se produce la grabación en la grabadora de voz.
3. El casete de audio se presenta como prueba y es examinado por un perito.
4 .Preguntas típicas:
- ¿Es el fonograma original?
- ¿El fonograma tiene signos de cambios realizados durante el proceso de grabación o después?
- ¿El fonograma tiene signos de edición informática?
Un poco sobre el formato GSM en sí:
Escuela de fonógrafos del 13 al 25 de octubre en Moscú sobre la base de la LSE del Ministerio de Justicia de Rusia:
===================== ====================== ============================= ========
GSM es un sistema de comunicación digital en el que la señal de voz de entrada del abonado se convierte a formato digital utilizando un dispositivo en el propio teléfono. El discurso del suscriptor se divide en porciones que duran 0,02 segundos. Para cada porción, utilizando un algoritmo especial, se determinan los principales parámetros de la señal (parámetros del modelo del tracto vocal del hablante), que se codifican y se transmiten en forma comprimida al canal de comunicación al corresponsal. El algoritmo de codificación de voz se describe en las recomendaciones del estándar GSM (codificación RPE-LPC/LTP con excitación de impulsos regulares, codificación predictiva lineal y predicción a largo plazo). (Ver ETSI-GSM M. Mouly, M-V. Pautet. The GSM System for Mobile Communications. 1992. — p. 701. A. Mehrotra. Cellular Radio Performance Engineering. Artech House. Boston-Londres. 1994 . &# 8212; pág. 536. P. Vary Actas de la conferencia DCRC, 12-14 de octubre. La señal de voz en el extremo receptor se calcula (como dicen, se «sintetiza») en función de los parámetros transmitidos. En este caso, la estructura de la señal reconstruida se simplifica enormemente en relación con la señal de audio original (la cantidad de datos en la señal de voz se reduce aproximadamente entre 5 y 10 veces). La calidad general de la señal de voz en el canal telefónico GSM y el reconocimiento del hablante en relación con el canal telefónico estándar se están deteriorando. Cualquier usuario de dicha conexión telefónica puede notarlo. Esto también se demuestra mediante mediciones objetivas.
El algoritmo de compresión especificado incluye un detector de tono a ruido. Todos los detectores de tonos conocidos actualmente tienen un defecto pronunciado: la falsa detección de tonos en señales de ruido intensas. Como resultado, se “vocalizan” los silbidos del habla oral y muchas señales acústicas de naturaleza ruidosa. El algoritmo utiliza el llamado «postfiltrado» — suavizar todos los defectos de la señal de voz reconstruida (sintetizada) en el extremo de salida con un filtro especial. Como puede verse en lo anterior, la identificación del hablante mediante los signos físicos del habla, el diagnóstico del entorno acústico y el análisis lingüístico de los signos fonéticos del habla en dicha señal son significativamente difíciles. El principal problema es de carácter metodológico fundamental y radica en el hecho de que el tema de estudio es una señal de voz sintetizada, de la cual el algoritmo de codificación ha excluido muchas características esenciales que identifican al hablante, la situación y el canal de comunicación. Sin resolver las cuestiones de la confiabilidad de la señal reproducida y los límites de permisibilidad de su distorsión específicamente para la señal de negociación en el canal GSM, el estudio de expertos no puede estar completo.
Para aumentar el número de canales de comunicación libres según el estándar GSM, se utiliza la llamada transmisión discontinua de una señal de voz. La transmisión intermitente es un método que se basa en el hecho de que durante una conversación una persona habla menos del 40% del tiempo. En los teléfonos GSM, durante cualquier conversación, en cada teléfono funciona una unidad especial: el Detector de Actividad de Voz. Durante las pausas entre comentarios, este bloque desactiva la transmisión de datos desde el dispositivo del suscriptor y, para evitar que las pausas vacías creen molestias auditivas a los suscriptores, estas pausas se llenan con el llamado «ruido confortable», que es generado por un generador especial. de este “ruido confortable”. Las pausas están llenas de ruido, cuya composición espectral es cercana al blanco, y la percepción auditiva se parece vagamente al ruido del agua que fluye o a la interferencia de una señal telefónica analógica de frecuencia vocal. Así, cada fonograma en el canal GSM se «edita» a partir de réplicas de los suscriptores, entre las cuales se inserta una señal artificial de «ruido de confort». Toda la señal editada, es decir, las uniones, las transiciones de edición entre la señal de voz transmitida y el ruido sintetizado, se suavizan con un «postfiltro» especial.
Así, la señal de voz a la salida del procedimiento de codificación/decodificación según el algoritmo GSM siempre tiene secciones de discontinuidad en la transmisión de la señal de voz en pausas entre las observaciones de los abonados y el llenado de estas secciones de terminación de la transmisión de la señal útil con una señal artificial homogénea de “ruido confortable”. Esta especificidad de la señal de voz de las negociaciones utilizando la red GSM introduce nuevos problemas a la hora de detectar rastros de edición de fonogramas. Si alguien edita un nuevo fonograma basándose en uno o más fonogramas de conversaciones entre suscriptores que mantienen conversaciones a través de la red de telefonía celular GSM, al colocar transiciones de edición en pausas entre líneas de conversación, detectar dichos puntos de transición de edición es una tarea compleja de expertos que requiere una investigación especial. métodos. (Timko E.V., Uskov K.Yu. Problemas de investigación forense de fonogramas digitales, Actas del Instituto de Investigación Científica de Experiencia Forense de Kiev, 2001, el texto del artículo está disponible en Internet: http://expert.ua) Además , no es difícil realizar una instalación de este tipo, como utilizar complejos informáticos para la edición digital de fonogramas y utilizar grabadoras de cinta analógicas modernas de alta calidad, utilizando el modo de parada temporal de grabación. Esta tarea puede volverse aún más complicada si el fonograma editado pasa por la red telefónica por segunda vez, lo que puede añadirle ruido natural continuo del canal telefónico.
El hecho es que en las zonas de pausa del habla, por la propia naturaleza de la codificación digital que utiliza el algoritmo GSM, no hay una señal de audio real, sino una señal artificial de «ruido de confort». En el caso de utilizar fonogramas para la edición, en los que los abonados mantuvieron conversaciones en el mismo entorno sonoro relativamente tranquilo desde los mismos aparatos telefónicos, normalmente no es posible detectar signos «simples» de edición en las zonas de transición de la edición. . El hecho es que entre las réplicas del fonograma estándar en el canal GSM hay áreas de inserción de ruido artificial confortable. Es bastante difícil distinguir entre las secciones insertadas por el propio algoritmo de codificación GSM durante la transmisión de las secciones de ruido insertadas artificialmente durante el proceso de edición del fonograma junto con sus réplicas posteriores. En cualquier caso, en los lugares de dichas transiciones de edición no hay clics, saltos en el nivel y rango de frecuencia del ruido, impulsos para encender/apagar equipos de grabación, fragmentos de palabras o frases, ni violaciones de la unidad lógica de la conversación. . Citemos la opinión de conocidos expertos en el campo de la edición de fonogramas del Instituto de Investigación Científica de Pericia Forense de Kiev (Timko E.V., Uskov K.Yu. Problemas de la investigación forense de fonogramas digitales, Actas del Instituto de Investigación Científica de Kiev de Forensic Expertise, 2001, el texto del artículo está disponible en Internet: http: //expert.ua): “Los métodos tradicionales de investigación para editar fonogramas son de poca utilidad para esta técnica. Esto se debe principalmente al hecho de que cuando se restaura un fonograma con el fin de suavizarlo, se realiza un posfiltrado de la señal restaurada. Por esta razón, y también debido a la insuficiencia de la transmisión de señales de pulso, las interferencias en los archivos de fonogramas se manifiestan sólo en el nivel dependiente del contexto (lingüístico – S.K.)”.
Entonces, ¿cómo funciona el GSM 6.10? El formato distorsiona la información y ¿Es también posible que destruya todo rastro de instalación?
Para ello, realicemos un experimento.
1. Creemos un archivo con 20 segundos de nivel de ruido blanco (-6 dB, es decir, 16345 cuentas). En dos lugares insertaremos pausas de 5 segundos.
2. Por separado, generaremos un nivel de 75 Hz de 200 muestras, de 30 segundos de duración, y lo aplicaremos al primer archivo. 75 Hz se considerarán una señal. La relación señal-ruido en amplitud = 20Lg10(200/16375) = -38 dB, y en la densidad espectral, ver figura, vemos su total ausencia:
Fig. 1.
con una resolución de ventana de 32767 y un espectro promedio en una sección de ruido de 5 segundos. Nuestra señal es prácticamente invisible, es decir. su nivel de densidad espectral es inferior al ruido.
Examinamos la fase de la señal de 75 Hz, ver Figura No. 2:
Fig. 2.
La fase es bastante lineal, perfectamente visualizada.
Guarde el archivo en formato GSM 6.10 y examínelo en el mismo intervalo:
Fig. 3.
Ha aparecido ruido en áreas donde antes solo había nuestra señal, pero la señal de 75 Hz permaneció sin cambios.
Para conocer la característica de fase de nuestra señal, consulte la Fig. 4:
Fig. 4.
se mantuvo exactamente igual (copia completa) que en el segundo imagen antes de la conversión.
Por lo tanto, el formato GSM 6.10 en sí no nos dio ninguna sorpresa. No le hizo nada terrible a nuestra armónica, simplemente aumentó la amplitud una vez y media y eso es todo. Y ahora si en algún momento se produce una inserción, eliminación, etc. En una ruptura de fase lo notaremos inmediatamente.
Y entonces, para esto necesitamos la presencia de armónicos continuos que penetraron en el canal de grabación en el momento de grabar el fonograma original.
Y esto También se aplica a aquellas áreas donde se utiliza una almohadilla de ruido realmente cómoda.
Hasta ahora hemos realizado investigaciones únicamente sobre el formato de compresión de voz.
2. Y ahora el verdadero examen — Marzo de 2004
Fig. 5.
El fonograma es una grabación de una conversación entre dos hombres utilizando un canal celular en una grabadora de voz, llevado al tubo. Auditivamente, se puede escuchar claramente la diferencia entre los dos oradores y las características del canal acústico de la grabación de un orador y las características acústicas del orador grabadas después de reproducir su discurso con un teléfono celular. El estudio del espectro reveló las siguientes características:
— La presencia de bandas espectrales a partir de aproximadamente 650 Hz con un intervalo de 212,019 Hz. Al estudiar los componentes de fase, se reveló que todos son armónicos múltiplos de 212.019 Hz, y al mismo tiempo hay una ausencia total de los dos primeros armónicos. Un estudio de la fase del armónico de 636 Hz mostró su suficiente linealidad y la capacidad de estudiar discontinuidades (corte, eliminación) o superposiciones (interferencias).
— Se identificó una peculiaridad de la transición al modo de pausa: después de que un participante deja de hablar, la señal de su lado continúa transmitiéndose al canal durante 0,42, 0,83 o 1,25 segundos. Como puedes ver, la post-transmisión de la señal es múltiplo de 0,42 segundos. (Quizás este retraso esté asociado con una determinación precisa de la relación señal-ruido en el lado transmisor una vez finalizada la conversación).
— El estudio de la pausa mostró la presencia de intervalos de tiempo estrictos para la transmisión de paquetes de sincronización (llamemos a esta transmisión durante la sincronización de pausa) y la vinculación completa de todos los paquetes, incluidos los paquetes de sincronización, a un intervalo de tiempo de 4,71 ms (212,019 Hz). ). ¿Es este estándar para todos los canales GSM? La opinión es que no, pero es necesario comprobarlo más a fondo. Esto es posible dentro de algunos límites aceptables junto a estos números, pero el hecho de que estén cuarteados significa que la linealidad de la fase es visible y la descarga de la batería de la grabadora de voz es visible en esta linealidad (la fase se desliza suavemente a medida que aumenta la velocidad del cambios de cinta). Los paquetes de sincronización se transmiten estrictamente cada 12 ms. En este caso, cada tres paquetes individuales se transmite un paquete que consta de 9 paquetes individuales, ver Fig. 6:
Fig. 6.
Resumamos la parte intermedia de síntesis:
1. En el canal GSM, todo está cuarzado y atado a Referencias de tiempo estrictas (hay un generador de frecuencia de cuarzo e intervalos de tiempo).
2. Ahora sabemos:
— 212,019 Hz la frecuencia principal de transmisión de paquetes y paquetes de sincronización sincronizados a esta frecuencia (cada 12 ms durante una pausa).
3. Retraso en la transición al modo de pausa: 0,42, 0,83 o 1,25 segundos (la transmisión finaliza antes la pausa son múltiplos de 0,42 seg).
4. Los paquetes de sincronización se transmiten estrictamente cada 12 ms. En este caso, cada tres paquetes individuales se transmite un paquete que consta de 9 paquetes individuales. Si el canal acaba de cambiar al modo de pausa e inmediatamente aparece una señal de voz, entonces la salida de la pausa puede no ser un múltiplo de 12 ms, pero su frente coincide con la frecuencia 212,019 Hz.
Así, hemos seleccionado parte del conjunto de características que un experto puede examinar.
Continuemos nuestra investigación y observemos más de cerca la frecuencia de 864 Hz. (cuarto armónico del principal)
Figura 7.
Modulación de fase secundaria con una periodicidad de 0,56 Hz (la rejilla se configura con un intervalo de 0,56 Hz). En este caso, la fase de la frecuencia en estudio es claramente visible durante los períodos de pausa (sincronización), lo que se ve claramente en la figura. Así, comenzamos a captar las características de la grabadora de voz en la que se realizó la grabación inicial (una unidad alimentadora o receptora gira a esta velocidad, o la cinta en el casete gira de manera desigual (frota contra el borde del cuerpo con tal frecuencia )). Esta característica cambia lentamente a lo largo del tiempo de reproducción y solo en una dirección (la cinta se enrolla, el diámetro del carrete cambia), sin interferencias (uno de los signos significativos de una sola grabación, es decir, uno de los signos del original), lo que nos brinda un buen campo para el análisis microscópico en toda la banda sonora. Por lo tanto, utilizando esta modulación de fase secundaria en futuras investigaciones, podremos restaurar la velocidad de la cinta magnética y posiblemente rastrear la descarga de la batería de la grabadora de voz.
Sí, pero nos olvidamos de mirar nuestros componentes constantemente investigados: 24,45,50,74,75, 80,85,90,100,150, 200,250,300 Hz. Lógicamente, no deberían estar ahí (grabados en una grabadora de voz).
Figura 8.
Resulta que hay 50 Hz, e incluso de enorme magnitud — 87 dB, sabemos con certeza que no es nuestro, pero 219 Hz es nuestro armónico (la grabadora de voz utilizada durante la digitalización en el lugar de trabajo del experto emite exactamente esta frecuencia), no la estudiamos. Pero, ¿de dónde vino el componente de 50 Hz? Lo descubriremos más adelante.
Medición de la linealidad de la fase 50 Hz Fig. No. 9:
Fig. 9.
1.La amplitud es simplemente enorme = 1,1 cuentas (ver la figura de arriba).
2.La fase es suave, lineal, sin interrupciones.
3.Ausencia de interferencias (en caso de superposición).
4. Un intento de rastrear un componente de 50 Hz +- 3 Hz ubicado cerca no tuvo éxito (también es una buena señal).
4. Esta interferencia no pudo provenir del canal GSM, pero está encendida. la cinta.
5. Surge la cuestión de solicitar al investigador los detalles de la grabación (parece que el teléfono celular se alimentó de la red, se colocó una grabadora de voz cerca y se realizó la grabación. Si se confirma, probablemente esto ser el original, pero sobre «categórico» si se confirma (todavía es temprano, había casos de 50Hz en el original y después de editarlos aparecieron y desaparecieron).
6. Miremos hacia la izquierda en el espectro promedio en la Fig. 8, hay algunas ráfagas allí.
Fig. 10.
7. Detectamos 2,6, 4,5, 5,86, 8,9, 10,8, 14,1, 17,9 Hz. Ahora los abordaremos de la misma manera: en qué momento aparecieron y cómo son un múltiplo de la frecuencia de rotación que cambia suavemente de las bobinas de la cinta y del cambio de fase de 50 Hz.
Fig. 11.
4,4, 8,8 Hz están en fase entre sí. ver figura No. 11. En este caso, la frecuencia aumenta durante la reproducción (avances de fase)
Fig. 12
5.86, 10.856, 14.47423, 18.09234 también están escalonados entre sí. En este caso, la frecuencia permanece fija (la fase es estrictamente lineal).
Al compararlo con el comportamiento de 50 Hz, se reveló una completa falta de sincronicidad en el comportamiento de la frecuencia y fase de los armónicos estudiados.
El estudio de las características de amplitud de todos los armónicos mostró su uniformidad y constancia a lo largo de el fonograma completo.
Primera impresión — algo se hizo mal. ¿Por qué hay armónicos independientes del tiempo de reproducción, mientras que otros están claramente ligados a la tensión de la cinta? Y al mismo tiempo, 5,86, 10,856, 14,47423, 18,09234 no son múltiplos entre sí. La propuesta es la siguiente: los últimos 4 armónicos son el resultado de la interferencia de dos o quizás tres frecuencias que tienen una estabilización de frecuencia común (oscilador de referencia), y la diferencia entre ellas o a partir de su diferencia múltiples componentes ingresaron al canal de grabación. Nunca antes se habían observado durante la digitalización. (Pensamientos en voz alta: compré una fuente de alimentación ininterrumpida, reemplacé mi interruptor, lo intentaré a la antigua usanza sin UPS). Estoy redigitalizando el fonograma, — el resultado es diferente: 5.86, 10.856, 14.47423, 18.09234 desaparecieron inmediatamente (deberá recordar apagarlos durante la digitalización en el futuro). Ahora solo quedan dos: 4.4 y 8.8: estos son los nativos del dispositivo de grabación que se utilizó para grabar (y en el proceso de estudiarlos, debemos asegurarnos una vez más de que sean nativos del canal de grabación del fonograma original).
Para estudiar la sincronicidad de la transmisión de paquetes, se copió completamente un fonograma y se superpuso a sí mismo con un desplazamiento que cambiaba periódicamente para identificar signos de inserciones o eliminaciones obvias. Se estudió el inicio de los frentes de los paquetes a lo largo de todo el fonograma:
Fig. 13.
Ahora apenas comienza un estudio completo del comportamiento de estos tres armónicos, comparándolos, combinando cada ráfaga escuchando auditivamente el fonograma. Estudio de 50Hz, búsqueda de interferencias con otro igual o cercano, múltiple, etc. No olvidemos observar detenidamente la componente espectral del ruido a lo largo de todo el fonograma y la respuesta en frecuencia media de ambos altavoces en fragmentos.
Después de completar el estudio:
1. 50 Hz después de recibir información adicional sobre el proceso de producción de la grabación resultó ser aceptable.
2 Al estudiar 50 Hz, resultó que no había interferencia con otra frecuencia igual o cercana, un estudio detallado de la. colas de aliasing, que son buenos signos de la ausencia de digitalización y de que el fonograma ha estado previamente digitalizado.
3.No se detectaron velocidades de fotogramas del monitor — lo mismo es una buena señal de la ausencia de digitalización y la presencia del fonograma previamente en forma digitalizada.
4. La velocidad de movimiento de la cinta magnética durante el proceso de grabación se restableció por completo (una señal de que No puedo imaginar cómo se podría falsificar deliberadamente).
5. El estudio del inicio de los frentes de los paquetes a lo largo del fonograma mostró el sincronismo absoluto de los frentes de los paquetes y su multiplicidad en el intervalo de tiempo de 12. señora.
6. Un estudio detallado de la frecuencia de 864 Hz mostró que durante las pausas, cuando solo se transmite una breve sincronización al canal y la frecuencia de 864 Hz está en fase con la sincronización, este armónico se restableció perfectamente INCLUSO EN LAS PAUSAS (si recuerda que durante una pausa , después de tres sencillos hay un paquete con nueve sencillos, y se atan y escalonan con la referencia en pausas la misma está presente y perfectamente visualizada);
La parte de síntesis ahora es mucho más fácil de escribir para un experto: (confianza confirmada por la investigación realizada).
Por ejemplo, hagamos un montaje para que podamos verlo en tres armónicos simultáneamente y en el mismo fonograma, mientras recortamos una pieza a lo largo de las pausas de transmisión (como se explicó cómo editar al principio del artículo) e insertamos lo mismo. en otro lugar en la pausa de transmisión:
Fig. 14.
A 3m.13s se cortó un trozo y se insertó a 4m.53seg. En este caso, primero detectamos una brecha en tres armónicos. En el sitio de inserción — roturas dobles (ver marcas verticales). Si miras de cerca y eliminas la primera marca donde cortamos, entonces, por el comportamiento asintótico, todavía se puede encontrar aproximadamente este lugar del corte.
Ahora propongo releer el artículo sobre los problemas de investigación para la instalación que se encuentra al principio del artículo.
Comentarios y sugerencias, quién no está de acuerdo con qué, adiciones, cambios Su experiencia personal, puntos interesantes. Estaré encantado de saber de usted. correo electrónico: illidiy@orel.ru