¿Qué es un vocoder y lipreder?
¿Qué son el vocoder y el lector de labios?
Actas de la 2.ª Conferencia Panrusa Conferencia & #171;Teoría y práctica de la investigación del habla»
En los sistemas digitales modernos para grabar, transmitir y almacenar información de voz, para reducir el volumen ocupado por la información en medios físicos o la velocidad de su transmisión a través de canales de comunicación digitales, se utilizan varios métodos de compresión de voz. En tales sistemas, una señal de voz convertida a formato digital se codifica utilizando un algoritmo de compresión especial antes de grabarse en un medio o transmitirse, y cuando se reproduce desde un medio o se recibe — decodificado.
Como es sabido, la señal del habla en la información — comunicativamente, tiene una cierta redundancia que no afecta el contenido semántico del mensaje de habla. En este caso, la compresión del habla es posible gracias a la eliminación parcial de esta redundancia, que puede no reducir la inteligibilidad y la calidad de la percepción auditiva del habla, pero, al mismo tiempo, privarla de las características especiales necesarias para la identificación experta del habla. Por lo tanto, al realizar un examen, es importante establecer tanto el hecho de la compresión como su efecto en la señal del habla.
Actualmente se utilizan muchos algoritmos de compresión de voz. Todos ellos se pueden implementar utilizando métodos tanto de hardware como de software. Convencionalmente, todos los algoritmos se pueden dividir en tres tipos:
— tipos avanzados de modulación de código de pulso (PCM, Pulse-Code Modulation PCM);
— codificadores de voz (de English Voice and Coder);
— lectores de labios (del inglés. Linear y Predictor).
Para evaluar la naturaleza de los cambios y pérdidas introducidas en la señal del habla, consideraremos los principios de la construcción de varios métodos de compresión.
Los parámetros PCM al digitalizar señales de voz se describen en las recomendaciones del CCITT (Comité Consultivo Internacional de Telefonía y Telegrafía, CCITT) y, como regla, tienen los siguientes significados:
— frecuencia de muestreo 8000 Hz;
— número de dígitos binarios por conteo 8;
— velocidad de transmisión 64000 bps.
En este caso, se puede digitalizar y restaurar una señal analógica con una frecuencia superior de hasta 4000 Hz.
Cuando se utiliza PCM diferencial (PCM diferencial, DPCM), en lugar de codificar muestras, se codifican las diferencias entre muestras adyacentes. Generalmente las diferencias entre las muestras son menores que las muestras mismas. La velocidad de transmisión del flujo digital se reduce a 32-56 kbit/s. Los sistemas DPCM logarítmicos utilizan las leyes de compresión A y mu para implementar una cuantificación no uniforme. PCM diferencial adaptativo (ADPCM) — Sistema DPCM con adaptación de cuantificador (ADC y DAC) y predictor. Con ADPCM, no es la señal en sí la que se digitaliza, sino su desviación del valor predicho (señal de error, error de predicción).
Los siguientes tipos de ADPCM se utilizan con mayor frecuencia:
— Recomendación CCITT G.721 (velocidad de baudios 32 kbit/s);
— Recomendación CCITT G.722 (frecuencia de muestreo 16.000 Hz);
— Recomendación CCITT G.723 (velocidad de baudios 24 kbit/s);
— ADPCM creativo (4, 2,6 o 2 bits por muestra);
— IMA/DVI ADPCM (4, 3 o 2 bits por muestra);
— Microsoft ADPCM.
Los métodos discutidos anteriormente pueden introducir cambios menores y pérdidas en las señales de voz (por ejemplo, estrechar el rango dinámico en las frecuencias más altas, limitar la pendiente de la señal), lo que prácticamente no tienen ningún efecto sobre la autenticidad del habla.
Circuito de vocodificador
Analizador A— analizador de espectro T-SH — resaltador de señal de tono a ruido AQUÍ — resaltador de tono UO — dispositivo unido señales
KS — canal de comunicación
Sintetizador UR— dispositivo corroído señales C— sintetizador de espectro P— interruptor de vista de espectro TENGO — generador de tono GSH — generador de ruido |
2. Vocodificadores
Los vocoders se pueden dividir en dos clases:
— elementos del habla;
— paramétrico.
En los codificadores de voz de elementos de voz, durante la codificación, se reconocen los elementos de voz pronunciados (por ejemplo, un fonema) y solo se envían sus números a la salida del codificador. En el decodificador, estos elementos se crean según las reglas de producción del habla o se toman de la memoria del decodificador. Los codificadores de voz fonémicos están diseñados para lograr una compresión extrema de las señales del habla. Ámbito de aplicación de los vocoders de fonemas — líneas de comunicación de mando, máquinas parlantes y de control del servicio de información y referencia. En tales codificadores de voz, se produce el reconocimiento automático de imágenes auditivas, y no la determinación de los parámetros del habla y, en consecuencia, se pierden todas las características individuales del hablante.
En general, un codificador de voz (de (las palabras en inglés voice-voice y coder-coder) es un dispositivo que realiza compresión paramétrica de señales de voz.
La compresión de las señales de voz en el codificador se lleva a cabo en un analizador, que extrae parámetros de la señal de voz que cambian lentamente. En el decodificador, utilizando fuentes de señal locales que están controladas por los parámetros recibidos, se sintetiza una señal de voz.
En los vocodificadores paramétricos, se distinguen dos tipos de parámetros de una señal de voz y de una señal de voz. se sintetiza utilizando estos parámetros en el decodificador:
— Parámetros que caracterizan la fuente de las vibraciones del habla (función generadora) — frecuencia del tono fundamental, su cambio en el tiempo, momentos de aparición y desaparición del tono fundamental (sonidos vocalizados o guturales), señal de ruido (silbidos y silbidos);
— Parámetros que caracterizan la envolvente del espectro de la señal de voz.
En el decodificador, de acuerdo con los parámetros dados, se generan el tono fundamental y el ruido, y luego se pasan a través de un peine de filtros de paso de banda. para restaurar la envolvente del espectro de la señal de voz.
Según el principio de determinar los parámetros de la función de filtro, los vocoders se distinguen:
— paso de banda (canal);
— formante;
— ortogonal.
En los codificadores de voz de paso de banda, el espectro del habla se divide por 7 — 20 bandas (canales) con filtros de paso de banda analógicos o digitales. Más canales en el vocoder dan mayor naturalidad e inteligibilidad. Desde cada filtro de paso de banda, la señal se envía a un detector para determinar el nivel promedio.
En los vocoders formantes, la envolvente del espectro del habla se describe mediante una combinación de formantes (frecuencias resonantes del tracto vocal). Parámetros de formato básicos — frecuencia central, amplitud y ancho del espectro.
En los vocoders ortogonales, la envolvente del espectro instantáneo se descompone en sus partes componentes en una serie de acuerdo con el sistema seleccionado de funciones de base ortogonales. Los coeficientes calculados de este horario se transmiten al lado receptor. Los vocoders armónicos que utilizan un programa de series de Fourier se han generalizado.
Los vocodificadores considerados proporcionan una compresión de señal de hasta 1200-4800 Bit/s, lo que permite restaurar en el decodificador la frecuencia fundamental con una discreción de varios hercios y, con baja precisión, la envolvente del espectro de la señal con un período de cambio de 16-40 ms, aunque incluso con una inteligibilidad del habla suficientemente alta, muchas características individuales del hablante.
Debido a la dificultad para determinar los parámetros de la función del generador, aparecieron semi-vocoders (Voice Excited Vocoder, VEV), en los que, en lugar de señales de tono, se utiliza un ancho de banda de señal de voz de hasta 800 — 1000 Hz, que se codifica, por ejemplo, ADPCM, y en lugar de las características de tono se transmite a la salida del codificador. Este algoritmo le permite comprimir el habla a 4800-9600 bps, preservando la función generadora de la laringe (frecuencia y ley de cambio de tono) del hablante.
3. Lipreders
Uno de los métodos más eficaces para analizar y sintetizar una señal de voz es el método de predicción lineal. El método se ha generalizado y se sigue mejorando; su esencia es que para predecir la muestra actual de la señal de voz, se puede utilizar una suma ponderada linealmente de las muestras anteriores, es decir, la muestra predicha
Todos los métodos de análisis del habla suponen un cambio bastante lento en las propiedades de la señal del habla a lo largo del tiempo. Las características del tracto vocal se pueden considerar sin cambios en un intervalo de 10-20 ms, es decir, los parámetros deben medirse con una frecuencia del orden de 1/20 ms = 50 Hz.
Se conocen varias variedades del método de predicción lineal, a saber:
— con excitación a partir de pulsos de tono — LPC (codificación predictiva lineal);
— excitación multipulso MPELP (Multi Pulse Excidet Linear Predictive) o MPLPC (Multi Pulse Excited LPC);
— excitación de la previsión residual RELP (Residual Excited Linear Predictive);
— excitación del código CELP (Code Excited Linear Predictive).
En el codificador LPC, la señal de excitación se transmite utilizando tres parámetros: el período de tono (Tot) para los sonidos que se vocalizan; señal tono-ruido (que caracteriza la presencia actual de sus parámetros, ya sea tono o ruido) y amplitud de la señal.
Codificador con excitación desde la frecuencia fundamental (FOT) — Este es un codificador LPC que se utiliza para transmitir parámetros de señal de voz a 2400 bps y menos.
Un codificador con excitación de FOT no proporciona la calidad requerida de voz sintetizada, incluso a altas velocidades de transmisión. No para todos los sonidos es posible obtener una división exacta del habla en sonora y sorda.
Se sabe que además de la excitación primaria, que se produce cuando la glotis está cerrada, hay una excitación secundaria, que no sólo está presente al abrir la glotis, sino también al cerrarla.
En la excitación de pulsos múltiples, la señal residual de LPC se representa como un tren de pulsos con intervalos espaciados desigualmente y amplitudes variables (aproximadamente 8 pulsos por 10 ms).
Información sobre las posiciones y Las amplitudes de los pulsos de excitación junto con los parámetros LPC en cada cuadro están formados por el codificador.
Si se utiliza una velocidad de hasta 10 parámetros LPC de 1,8 kbit/s (tramas de 36 bits, 20 ms), a velocidades de transmisión de 16 y 9,6 kbit/s se asignan velocidades de 14,2 y 7,8 kbit/s para la transmisión de parámetros de la señal de excitación, respectivamente. A 16 kbps e incluso menos, se produce voz sintetizada de alta calidad. A velocidades de 16 y 9,6 kbit/s, la voz sintetizada corresponde en calidad a las señales PCM (con compresión logarítmica) con velocidades de transmisión de 56 y 52 kbit/s.
A una velocidad de 4,8 kbit/s se transmiten para la recepción los parámetros LPC y la función de correlación cruzada. La función de autocorrelación se reproduce a partir de los parámetros LPC aceptados, tras lo cual se determinan las posiciones y amplitudes de los pulsos de excitación. La calidad de la voz sintetizada con excitación de múltiples impulsos a una velocidad de transmisión de 4,8 kbit/s es notablemente superior que con excitación de un solo impulso a la misma velocidad de transmisión.
Un codificador de predicción lineal en el que el residual de predicción se puede utilizar como señal de excitación se denomina codificador RELP. El resto de la predicción pasa a través de un filtro de paso bajo con una frecuencia de corte de 800 Hz cuando se transmite a 9,6 kbit/s y 600 Hz a 4,8 kbit/s. En el primer caso, la señal residual se muestrea a una frecuencia de 7,2 kbit/s y se transmite a la misma frecuencia. El resto, 9,6-7,2 = 2,4 kbit/s, se utiliza para transmitir predicción y coeficientes de ganancia. En el segundo caso, es decir A una velocidad de 4,8 baudios, la señal restante se muestrea a 2,4 kbit/s y se transmite a la misma velocidad. Los 2,4 kbit/s restantes se utilizan de la misma forma que en el primer caso.
En el decodificador, la señal de excitación se restablece en toda la banda de frecuencia. En este caso, la mitad superior del espectro de excitación renovado se convierte en una imagen especular de la mitad inferior.
La señal restante para el codificador RELP también se puede formar durante la decodificación. El hecho es que para transmitir esta señal se necesita una velocidad bastante alta, lo cual es inaceptable para los codificadores LPC, cuya velocidad de transmisión es de 2,4 kbit/s, por lo que es necesario crear una señal restante para recibir la señal CHOT.
La señal residual no tiene espectro de amplitud, pero tiene las mismas regiones resonantes que una señal de voz real. Por este motivo la señal residual es muy inteligible. Las amplitudes de los formantes a la salida del filtro de síntesis LPC son a menudo más pequeñas que las amplitudes de los formantes en la señal de voz real. Esto sucede como resultado de la cuantificación de los parámetros LPC.
En un predictor lineal con excitación del código CELP (Code Excited Linear Predictive), la señal de excitación se representa como un vector al que se le asigna un determinado índice, es decir, code.
La selección del vector óptimo se realiza a partir de un gran conjunto de vectores candidatos que componen el libro de códigos. Determinar el tamaño del libro de códigos de excitación es de importancia decisiva para crear la calidad requerida de reconstrucción del lenguaje sintetizado.
El método de predicción lineal con excitación de código proporciona señales de voz de alta calidad a velocidades de transmisión de 4…16 kbit/s.
En relación con el método de pulsos múltiples, el método CELP logra mayores tasas de restauración del habla a las mismas velocidades.
En EE.UU. se han adoptado dos estándares federales para el uso de CELP:
— 1015 (LPC-10E, 2400 bps);
— 1016 (E-CELP, 4800 bps).
La UIT (Unión Internacional de Telecomunicaciones, UIT) ha desarrollado recomendaciones:
— Algoritmo G.728 a LD-CELP (16 kbit/s);
— Algoritmo G.729 a CS-ACELP (8 kbit/s).