Sobre el uso de prosódico relativo y características espectrales en la tarea de identificación forense de una persona mediante el habla sonora.
Kaganov A.Sh.
Centro Federal Ruso de Pericia Forense
(el artículo fue enviado para su publicación en la colección de la Facultad de Filología de la Universidad Estatal de Moscú)
La identificación forense es el establecimiento de la presencia o ausencia del identidad de un objeto material particular — en este caso una persona — por sus reflejos [1].
Es intuitivamente claro que para establecer la identidad especificada, sólo se pueden utilizar características individualizadoras estables como características de identificación.
Así, el problema de identificar rasgos de identificación estables de un hablante se convierte en un problema clave en la tarea de identificación forense de una persona a partir del habla hablada.
Este problema se concreta a través de las posibilidades de lo auditivo (más precisamente, auditivo-lingüístico) y partes instrumentales de un único estudio integral [2] en esta etapa del desarrollo de la lingüística aplicada.
Sin detenernos en detalle en este trabajo sobre el análisis de los rasgos de identificación auditivos y lingüísticos que caracterizan la personalidad del hablante, solo tocaremos aspectos tan importantes de la parte instrumental de un estudio de identificación complejo como el análisis de algunos relativos prosódicos y espectrales. características del habla.
El análisis instrumental de estas características que se describe a continuación en la tarea de identificación forense de un hablante incluye la identificación de aquellos parámetros relativos del tono que actúan como rasgos de identificación estables que caracterizan la fuente de excitación de la señal del habla;
- obtener criterios de evaluación estables de la calidad acústica de los sonidos individuales del habla utilizando relaciones formantes;
- análisis comparativo del «peso» de los indicadores prosódicos y formantes absolutos y relativos, que actúan como características de identificación del hablante.
Pasemos a considerar las cuestiones planteadas. Pasando a los fundamentos forenses del problema de la identificación del hablante, observamos que en el sistema de fuentes materiales de información utilizadas en la prueba, una cantidad significativa está ocupada por reflejos de complejos dinámicos funcionales (FDC) de habilidades, cuyo portador es un persona [3].
La CDF de habilidades es un fenómeno de naturaleza psicofisiológica. Su esencia consiste en habilidades o sistemas de habilidades para la realización de determinadas acciones (realización de actividades).
Se suele entender por habilidad “la capacidad de realizar acciones con un propósito, llevada al automatismo como resultado de la repetición consciente y repetida de los mismos movimientos o la resolución de problemas típicos en actividades productivas o educativas«[1].
Tales, en particular , son habilidades del habla, escritura, caminar, etc.
Al estar materialmente exhibidos en el escenario del evento bajo investigación, los FDC resultan ser fuentes de información forense.
Las habilidades comunicativas (del habla) del FDC son el principal medio de comunicación humana. Tenga en cuenta que existe una cierta correlación entre las habilidades FDC orales y escritas.
Al mismo tiempo, cada uno de los subgrupos mencionados tiene autonomía debido a la diferencia en los analizadores que implementan FDC e incluyen diferentes bloques efectores de sistemas funcionales. (en el habla oral — aparato articulatorio, en la escritura, con mayor frecuencia la mano).
Los FDC del habla oral son objeto de estudio de la rama del conocimiento forense: fonografía forense, que estudia el habla sonora, el entorno sonoro, las condiciones, los medios, los materiales y las huellas de las grabaciones sonoras, y también desarrolla métodos para su estudio con el fin de resolver los problemas del examen forense de las grabaciones sonoras.
Pasando a la base científica e histórica de los aspectos instrumentales de la identificación forense de una persona mediante el habla sonora, observamos que aunque el primer intento científico de construir un modelo acústico de los sonidos del habla humana se realizó, aparentemente, en 1779 por Kratzenstein. (cuando presentó un modelo similar al concurso de la Academia Imperial de Ciencias de San Petersburgo [4]), sólo en 1870, es decir. Casi 100 años después, la teoría acústica de la formación del habla recibió una seria formalización científica en el trabajo fundamental de G. Helmholtz [5].
Las disposiciones fundamentales de este trabajo se han mantenido prácticamente sin cambios hasta el día de hoy y son compartidas. por la mayoría de los especialistas.
Hagamos una reserva de inmediato de que la interpretación moderna de la obra de Helmholtz tiene en cuenta, por supuesto, toda una serie de mejoras matemáticas, metodológicas y tecnológicas introducidas por los investigadores modernos (mencionamos aquí las obras clásicas de S.N. Rzhevkin [6], J. Flanagan [7] y G. Fant [8]).
Según G. Helmholtz, el proceso de formación del habla consta de dos componentes independientes: la excitación del sonido en sí y la formación de la acústica. calidad del sonido debido a la excitación de las frecuencias resonantes del tracto articulatorio (en Helmholtz) o al filtrado (en la consideración moderna).
Determinar las características de la fuente de excitación del sonido es una tarea bastante compleja y que requiere mucho tiempo y requiere una consideración separada.
Se sabe que durante el proceso de formación de la voz, una corriente de aire que se escapa de la glotis, debido a debido al efecto Bernoulli, hace que las cuerdas vocales más cercanas vibren.
Como resultado, a la salida de la laringe se forman vibraciones del aire, que el oído percibe como sonidos vocales, que se caracterizan por el tono, fuerza y timbre.
Si la fuerza y el timbre, al pasar a través de las cavidades supraglóticas, cambian significativamente dependiendo de los parámetros de estas cavidades, entonces se conserva el tono de la voz, la frecuencia de cierre de los pliegues [2], lo que representa una de las principales características individuales. de la voz [9].
El tono de la voz refleja la frecuencia de vibración de las cuerdas vocales, que depende de la longitud, el grosor, la tensión y el grado de contracción de las cuerdas vocales.
Las cuerdas vocales largas, gruesas y débilmente estiradas producen sonidos graves.
Un aumento de la tensión de los pliegues, realizado con la ayuda del aparato muscular de la laringe, conlleva un aumento del tono del sonido.
Según la teoría generalmente aceptada de la formación de la voz (fonación) , la señal sonora se obtiene mediante una modulación casi periódica del flujo constante de aire expulsado por los pulmones, realizada mediante cambios en el ancho del espacio entre las cuerdas vocales.
Los principales parámetros que caracterizan el proceso de apertura y cierre periódico de la glotis son el volumen de aire exhalado por unidad de tiempo y la presión subglótica.
Los impulsos de la fuente vocal obtenidos como resultado del proceso descrito se repiten a la frecuencia fundamental.
La frecuencia del tono fundamental (FOT) de la voz es inversamente proporcional al período de vibración de las cuerdas vocales y está determinada principalmente por su masa y elasticidad, la magnitud de la presión subglótica y el grado de contracción de las cuerdas vocales.
Todos estos parámetros, así como los estereotipos dinámicos estables de control de fuente de voz, es decir. Los complejos funcional-dinámicos (FDC) de habilidades, según la terminología [3], son indicadores individuales y, por tanto, pueden actuar como fuente de rasgos de identificación que caracterizan la personalidad del hablante.
Para determinar las características de identificación estables que caracterizan el funcionamiento de las cuerdas vocales de un individuo, consideraremos una comparación de las características del valor promedio de la frecuencia fundamental y el rango relativo de cambios en el tono fundamental D[3] usando el ejemplo de exámenes reales.
Para el análisis comparativo, los materiales de aquellos exámenes en los que la situación del habla de las grabaciones originales (principalmente conversaciones telefónicas) no coincidieron con la situación del habla característica de la obtención de muestras de la voz y el habla del personas involucradas en los exámenes (las muestras eran, por regla general, una conversación con un investigador o un interrogatorio de una persona involucrada en una audiencia judicial).
El análisis estadístico realizado a partir de los resultados de 10 exámenes mostró que la desviación relativa promedio ponderada [4] de los valores FOR promedio de los registros originales y comparativos fue del 12,8%. Al mismo tiempo, la desviación relativa promedio ponderada del rango relativo de cambios en el tono fundamental D en esta muestra fue inferior al 5,4%.
Aunque ambos indicadores están dentro de los límites de la variabilidad intrahablante, De los resultados anteriores se desprende claramente que el rango relativo de cambio en el tono fundamental D fue en este caso más“fuerte”rasgo de identificación que el valor promedio de la frecuencia del tono fundamental.
En otras palabras, podemos decir que, como rasgo de identificación, el rango relativo de cambios en el tono fundamental D tiene más “ peso” que el valor promedio de la frecuencia fundamental.
(Es importante aclarar que de acuerdo a los resultados de un estudio integral de identificación en cada uno de los exámenes incluidos en la muestra analizada, identificados como resultado de auditoría, lingüística e instrumentalEn algunas partes del estudio de identificación comparativa, las características constituíanun complejo establesuficiente para establecer una identidad individual específicaentre la voz y el habla del hablante cuya producción de habla se registró en los fonogramas. de las conversaciones originales, y la voz y el discurso de la persona involucrada, cuyas muestras de voz y discurso se presentaron para comparar).
A continuación, de la muestra analizada, se seleccionaron aquellos exámenes en los que las grabaciones iniciales eran conversaciones telefónicas de los imputados realizadas a través de teléfonos móviles en presencia de ruido e interferencias en la vía telefónica.
El análisis estadístico de las desviaciones relativas del valor promedio de la frecuencia del tono fundamental del material del habla de las grabaciones originales de la muestra promedio DE, realizado sobre la base de los resultados de cuatro exámenes seleccionados, mostró que la desviación relativa promedio ponderada del valor promedio de DEascendió al 18,3%, es decir resultó estar cerca de la variabilidad intrahablante máxima permitida.
Al mismo tiempo, la desviación relativa promedio ponderada del rango relativo de cambios en el tono fundamental D en esta muestra fue solo del 3,8%.
Los datos obtenidos se pueden explicar por las grandes diferencias en la situación del habla entre las grabaciones originales y comparativas: la presencia de ruido e interferencias en las vías de comunicación móvil, lo que provocaba un forzamiento de la voz y, como consecuencia, importantes cambios en los parámetros CHOT(El valor medio del tono fundamental lo hemos elegido sólo como ejemplo), mientras que las muestras del habla de los acusados se obtuvieron en la oficina del investigador y no requirieron forzar la voz.
Vamos a ampliar el alcance del análisis y pasar a considerar aquellos rasgos de identificación estables del grupo instrumental que están asociados con las características espectrales del habla.
En el proceso de resolver el problema de la identificación forense de una persona mediante la voz y el habla sonora, es necesario tener en cuenta el trabajo de los órganos del aparato productor del habla, que le dan a la voz un color tímbrico individual y forman el flujo. de los sonidos del habla, es decir analice el segundo componente independiente del proceso de formación del habla en el modelo de G. Helmholtz.
Pasemos al mecanismo de formación y a los criterios para evaluar la calidad acústica del sonido debido a la excitación de las frecuencias resonantes del hablante. tracto articulatorio para determinar aquellas características espectrales relativas del habla que pueden usarse como características de identificación estable.
A mediados de los años 50 del siglo pasado, los investigadores nacionales L.A. Varshavsky y I.M. Litvak planteó la hipótesis de que la calidad acústica de los sonidos está determinada por la proporción de los niveles de señal en las bandas espectrales [10].
En este caso, los formantes (es decir, los máximos en el espectro de la señal de voz) son sólo una forma accesible para que el aparato productor de voz alcance las relaciones de banda necesarias.
El tiempo ha demostrado que la idea expresada en [10] resultó ser justa, fundamental y con un gran poder explicativo.
Más tarde, con la expansión de la investigación aplicada sobre el habla hablada, surgieron nuevas preguntas. Fue necesario desarrollar esta teoría en relación con material de habla de un volumen limitado (es decir, resolver un problema en presencia de restricciones) [11].
Tal desarrollo hizo posible ampliar el alcance mencionado anteriormente. hipótesis de L.A. Varshavsky y I.M. Litvak para resolver el problema de la identificación forense de hablantes.
Entonces, la individualidad del hablante está determinada por la forma general del espectro[12], es decir la relación de niveles de señal en bandas espectrales[10].
Es importante tener en cuenta que los formantes sirven como una forma de implementar las relaciones de banda indicadas. Lo anterior es el punto de partida para resolver el problema de la identificación forense del hablante.
Esta solución todavía se basa en la búsqueda de características de identificación estables (que en este caso se identifican mediante características espectrales estables).
Se sabe que las características de identificación estables pueden ser de diferente naturaleza [2]. Estas características estables también incluyen relaciones de formantes: F2/F1, F3/F1, F3/F2, etc.
El análisis de estas relaciones es necesario cuando se identifica a un hablante que se encuentra en diferentes condiciones del habla (conversación de negocios por teléfono). , hablar frente a una audiencia, hablar con un investigador, etc.), en diferentes estados emocionales (tranquilo, emocionado, deprimido, asustado, animado, etc.).
En estas situaciones, las proporciones de formantes son más estables en comparación con los valores absolutos de los formantes y, por lo tanto, son características de identificación más concluyentes.
Esta conclusión se basa en la experiencia de resolver el problema del reconocimiento del hablante a partir de fonogramas reales, que muestra que cuando los valores absolutos de los formantes cambian por ciertas razones (por ejemplo, dependiendo de la situación de la comunicación del habla, el estado emocional de el hablante, etc.), la proporción de formantes prácticamente no cambia.
Consideremos las características comparativas del habla (basadas en la proporción de formantes F2/F1) en diferentes condiciones del habla y en diferentes Estados emocionales del hablante. Las diferencias se resumen en la Tabla I y se denominan Situación 1 y Situación 2.
En el primer caso, el hablante es emotivo, cuidadoso y breve. La voz suena seca, profesional, apagada. En el segundo caso, la articulación de las vocales está clara y plenamente representada, las consonantes no están tensas, el habla es pausada (la velocidad del habla se reduce en un 10% en comparación con la situación 1).
Como puede ser Como se ve en la Tabla I, en la situación 1 y en la situación 2, los índices formantes absolutos promediados del habla divergen significativamente, pero la relación F2/F1 permanece prácticamente sin cambios: estable, es decir. Como se señaló anteriormente, las proporciones de formantes cambian poco o prácticamente ningún cambio.
Por lo tanto, la proporción de formantes permanece estable, y esta característica de identificación, las proporciones de formantes, resulta ser estable incluso en material de volumen limitado.
Por lo tanto, la posición en la que la calidad acústica de los sonidos está determinada por el
tabla I
parámetros de análisis de formantes | F2/F1 | ||
vocal | frecuencia formante promedio, Hz | situación 1 | situación 2 |
a | ref. – F1=535 y F2=1390 comparar – F1= 580 y F2=1500 |
2.6 | 2 ,6 |
y | ref. – F1=310 y F2=2015 comparar – F1=300 y F2=1970 |
6.5 | 6.6 |
o |
ref. – F1=457 y F2=945 comparar – F1=390 y F2=840 |
2.0 | 2.2 |
Al evaluar los resultados presentados de un estudio de la calidad acústica de los sonidos del habla utilizando indicadores de formantes absolutos y relativos, observamos que si la desviación relativa promedio ponderada del material del habla original (situación 1) y comparativo (situación 2), calculada a partir del promedio valores formantes, en este ejemplo fue del 8,4 %, entonces la desviación relativa promedio ponderada, calculada a partir de las relaciones F2/F1 (columnas 2 y 3 de la Tabla I), es sólo del 3,5 %.
Aunque ambos indicadores son dentro de los límites de la variabilidad intrahablante, desde Los resultados anteriores muestran que la proporción de los formantes fue en este caso una característica de identificación más“fuerte”que la valores medios de los formantes.
Como en el caso del rango relativo de cambios en la frecuencia del tono D, se puede argumentar que, como característica de identificación, la relación de formantes tiene más «peso» que los valores absolutos de la formantes.
Concluyendo la discusión de la Tabla I, observamos que la mejor concordancia entre los indicadores de formantes relativos de las grabaciones originales y comparativas del sonido [a] puede explicarse por el hecho de que entre todas las vocales del idioma ruso, la vocal [a ] es la más resistente espectralmente al ruido en el entorno acústico y a la distorsión.
Debido a las razones anteriores, las características espectrales de la vocal [a] resultaron ser las más resistentes a las diferencias en el habla. situación, en el entorno contextual [13], en el volumen y la calidad del material de voz de la grabación original y del fonograma de muestra.
Entonces, la idea fundamental sobre la determinación de la calidad acústica de los sonidos a través del relación de niveles de señal en bandas espectrales[10] en la tarea de identificación forense del hablante se implementó utilizando proporciones de valores de frecuencia de formantes promedio (F2/F1), es decir. Los formantes eran una forma accesible para que el aparato productor de voz alcanzara las proporciones de banda necesarias.
Así, la combinación de dos métodos de análisis espectral hace posible identificar aquellas identificaciones estables. características del grupo instrumental que están asociadas con las características espectrales del habla individual.
El análisis del material del habla en un tipo específico de exámenes forenses muestra que cuando los valores absolutos de los parámetros del tono fundamental y los formantes cambian por ciertas razones (por ejemplo, dependiendo de la situación de la comunicación del habla, el estado emocional de el hablante, etc.), los indicadores relativos de fonación y articulación (el rango relativo del tono fundamental D y la proporción de formantes) permanecen estables y pueden usarse como características estables de identificación del hablante.
Así, los complejos funcional-dinámicos (FDC) de habilidades, cuyo portador es una persona, sirven como fuentes para identificar las características individuales del habla. Permiten identificar aquellas características de identificación estables que están asociadas con las características prosódicas y espectrales relativas del habla.
Literatura
Belkin R.S. y otros. METRO:. Literatura jurídica. – 695 págs.
Kaganov A.Sh. Equipos de fono y vídeo como fuente de información probatoria //Prueba material. Tecnologías de la información de la prueba procesal./ed. Doctor en Derecho, Prof. V.Ya. Koldina — M.: Norma., 2002. — 742 pp.
Fundamentos del examen forense. Ed. Korukhova Yu.G. Parte 1., Teoría general. RFCSE dependiente del Ministerio de Justicia de la Federación de Rusia. M., 1997. – 430 págs.
Kratzenstein Ch. G. Qualis sit natura et carácter sonorum litterarum vocalium a, e, i, o, u tam insigniter inter se diversorum/– San – Petersburgo, 1779.
Helmholts H. Die Lehre von den Tonempfindungen als psychologische Grundlage fur die Theorie der Musik, Braunschweig, 1870.
Rzhevkin S.N. Audición y habla a la luz de la investigación física moderna. – M.: – L.: ONTI, 1936. – 311 p.
Flanagan J. L. Análisis, síntesis y percepción del habla/Transl. del ingles – M.: Svyaz, 1968. –292 págs.
Fant G. Teoría acústica de la formación del habla/Transl. del ingles – M.: Nauka, 1964. – 284 págs.
Recomendaciones metodológicas para el uso práctico del programa SIS cuando se trabaja con señales de voz. STS-D106.1. Centro de Tecnologías del Habla. – San Petersburgo, 1998.
Varshavsky L.A., Litvak I.M. Estudio de la composición de formantes y algunas otras características físicas de los sonidos del habla rusa //Problemas de acústica fisiológica. – 1955. – T.3. – P. 5–17.
Kaganov A.Sh. Estudio instrumental de características espectrales en la tarea de identificación forense de una persona a partir del habla hablada. //El artículo está impreso.
Galunov V.I., Garbaruk V.I. Teoría acústica de la producción del habla y sistema de rasgos fonéticos. Actas de la conferencia internacional 100 años de fonética experimental en Rusia. S.–P: Facultad de Filología de la Universidad de San Petersburgo. 2001. págs. 58–62.
Zlatoustova L.V. Unidades fonéticas del habla rusa. — M.: Universidad Estatal de Moscú, 1981. — 108 págs.
[1]Diccionario enciclopédico soviético. – M., 1979. – pág. 863.
[2] Parece más acertado hablar específicamente de las cuerdas vocales, y no de las cuerdas vocales, ya que anatómicamente la cuerda vocal es sólo una membrana delgada que corre a lo largo del borde de las cuerdas vocales.
[3] El valor del rango relativo de cambio en la frecuencia del tono fundamental D se considera igual a la relación entre el valor máximo de FROT (el valor promedio de FROM más el doble del valor de la desviación estándar) y el mínimo (el valor promedio de SUSTO menos el doble del valor de la desviación estándar).
[4] Se entiende por desviación relativa el módulo de la diferencia entre el promedio DE de los registros originales y comparativos, dividido por el valor del promedio DE del registro comparativo.