Identificación de los usuarios del sistema informático.
Identificación de usuarios del sistema informático
basado en tecnologías modernas del habla
En relación con la creciente informatización de la sociedad moderna y el aumento en el número de objetos y flujos de información que deben protegerse del acceso no autorizado, así como la necesidad de intelectualizar todas las formas de interacción entre los usuarios de sistemas de control automatizados y medios técnicos, Los problemas de utilizar mecanismos de tecnología del habla para delimitar el acceso a los IVS son cada vez más relevantes. Hoy nos encontramos en la siguiente etapa de la evolución técnica de estos sistemas. Ya han aparecido las primeras versiones comerciales de software que utilizan tecnologías del habla. Sin embargo, si a mediados de este siglo se preveía que los sistemas de reconocimiento de voz e identificación de voz se utilizarían ampliamente en un futuro próximo, hoy resulta que sólo funcionan en determinadas áreas de la vida pública y no se han generalizado.
El problema de la identificación personal por voz
En las últimas décadas ha aumentado el interés por el problema de la identificación por voz. En primer lugar, se debe a las ventajas de establecer y verificar la autenticidad de un individuo mediante un segmento de onda de voz: la voz no se puede robar y el proceso de identificación no requiere contacto directo con el sistema de acceso. uso de tecnologías modernas del habla (consultas sobre el estado de cuentas bancarias y pagos bancarios por teléfono; solicitud de información de bases de datos telefónicas; pago automático de llamadas telefónicas de larga distancia, etc.) aumenta la necesidad de establecer la autenticidad del suscriptor. Una aplicación importante de los métodos de identificación de hablantes por voz es la verificación de los derechos de acceso a diversos objetos (informativos y físicos): canales de comunicación; sistemas informáticos; bases de datos; ASOD; cuentas bancarias; locales oficiales e individuales de uso limitado (secreto, bienes materiales, etc.).
Cabe señalar que muchas medidas de seguridad modernas no son lo suficientemente confiables, ya que se basan en el uso de algún tipo de contraseña, clave física o código que puede perderse, recogerse, espiarse, romperse o transferirse a un atacante bajo la influencia de la fuerza. Por tanto, siempre existe la posibilidad de que se produzca un ataque a cualquier sistema de procesamiento de información. Un atacante intentará obtener la clave o contraseña antes de piratear el sistema por otros medios. Por lo tanto, el usuario siempre necesita tener consigo una «clave» confiable y permanente, conveniente de usar e inaccesible para los atacantes. Obviamente, una «clave» tan universal pueden ser parámetros personales biométricos: huellas dactilares, dinámica y tipo de firma, imagen, voz. Las investigaciones han demostrado que en la etapa actual, los métodos desarrollados para modelar una señal de voz y los métodos para identificar parámetros de hablantes individuales abren la posibilidad de crear sistemas confiables de identificación personal basados en el habla. Sin embargo, cabe señalar que la probabilidad de que un intruso piratee dicho sistema dependerá de los parámetros seleccionados que caracterizan la individualidad de la voz de una persona, del modo de entrenamiento seleccionado, del concepto de construir un sistema de identificación, etc.
Hoy en día se han creado decenas de sistemas de identificación por voz diferentes, con diferentes parámetros y requisitos para el proceso de identificación en función de tareas específicas. Nuestro país ha desarrollado una serie de productos de software completos que ya han encontrado aplicación en varios departamentos, por ejemplo, el sistema de software y hardware para la identificación del hablante independiente del texto «SIG», el sistema de software y hardware para restringir el acceso a los recursos de información basado en verificación del hablante mediante frases de contraseña «Voice Key» (utilizado en el Ministerio de Defensa), un sistema automatizado para identificar personas utilizando fonogramas del habla rusa «Dialect» (utilizado en el Ministerio del Interior).
Desafortunadamente, los programas desarrollados hasta la fecha no son fáciles de aprender, fáciles de usar ni de bajo costo. Más a menudo se utilizan como medios adicionales de autenticación cuando es necesario garantizar un alto grado de fiabilidad de los sistemas de identificación. Por ello, hoy en día se continúa trabajando en la mejora de los algoritmos de procesamiento de señales del habla con el fin de crear mecanismos de reconocimiento automático de la voz de una persona que sean más adecuados al proceso de percepción del habla humana.
Parámetros del la señal del habla y el factor de individualidad
Una persona se enfrenta constantemente al problema de identificar a sus familiares o amigos en su vida. Lo hace de forma inconsciente y rápida basándose en su experiencia de vida y en una cantidad bastante grande de información (apariencia, modo de andar, voz, comportamiento), lo que hace que, a primera vista, el problema de la identificación sea bastante transparente y obvio. Por tanto, la pregunta “¿Qué nos permite distinguir la voz de una persona de la de otra?” llevó a los primeros investigadores a teorías puramente especulativas. Esto se debió principalmente a una subestimación de la complejidad del habla como acto multifuncional de comunicación entre personas, que incluye tanto información sobre la voz individual del hablante como información sobre la calidad fonética. Por tanto, es muy importante garantizar la correcta selección y justificación del sistema de características, que luego determinarán el principio de construcción del sistema de identificación. La pregunta es: ¿cuáles son los requisitos objetivos para reconocer a una persona por voz? ¿Qué fenómenos físicos subyacen al proceso de reconocimiento del hablante? ¿Qué características acústicas se pueden utilizar para construir un sistema de identificación?
Con base en los datos obtenidos a través de experimentos que utilizan métodos subjetivos, la principal manifestación de la individualidad del habla humana debe buscarse en dos grupos principales de características. Están asociados con las características fisiológicas (anatómicas) del mecanismo de producción del habla humana y la naturaleza única de su activación (actividad articulatoria), determinada por el trabajo del sistema nervioso central.
El primer grupo de características se basa en un modelo bien conocido del tracto vocal [3], que consta de una función de transferencia de un sistema resonante y un generador de impulsos de señal de excitación. La función de transferencia caracteriza casi por completo la forma geométrica individual de las cavidades del aparato del habla: la cavidad faríngea posterior, el estrechamiento entre la lengua y el paladar, la cavidad bucal anterior, el estrechamiento entre los labios, etc. Los principales parámetros aquí son las características de las cuatro áreas de formantes (frecuencia promedio, rango de frecuencia, energía), envolvente del espectro, trayectorias de formantes y derivadas de estos parámetros. La frecuencia de los impulsos de excitación depende directamente de las vibraciones de las cuerdas vocales, que, a su vez, dependen de la longitud, grosor y tensión de estas últimas. Los principales parámetros aquí son la frecuencia del tono fundamental, el parámetro tono/ruido, la sonoridad, el ascenso del tono fundamental y las derivadas de estos parámetros.
Para calcular los parámetros relacionados con las características fisiológicas del tracto vocal, se utilizan con mayor frecuencia métodos de análisis espectral-temporal. Estos métodos de análisis de señales de voz son adecuados para el mecanismo natural de percepción del habla [2], lo que deja clara la tendencia de muchos investigadores a buscar características individuales en las distribuciones espectrales instantáneas de fonemas individuales y en las distribuciones del espectro actual. Dichos métodos se basan en el análisis clásico de Fourier [3] o en el análisis paramétrico autorregresivo (predicción lineal como caso especial) [4,5].
Estrechamente relacionado con la representación espectral de la señal de voz está el método homomórfico utilizado recientemente [4]. Este método representa la señal de voz como una secuencia de vectores de coeficientes cepstrales, que requieren mucha menos memoria para almacenar imágenes de referencia. Una pequeña cantidad de coeficientes cepstrales (generalmente 8 o 16) puede aproximarse a una sección de formantes que tiene una alta resolución espectral. Esto proporciona una representación más compacta de los segmentos de voz sin una pérdida significativa de las principales características informativas (estructura de formantes, envolvente, parámetro de tono/ruido).
En cuanto a los parámetros de la señal de excitación, se pueden calcular mediante uno de los métodos conocidos para aislar la frecuencia fundamental (por ejemplo, el método de correlación, el método cepstral, el método Gold-Rabiner [3,4]).
Si el primer grupo de características refleja las propiedades estáticas del tracto productor del habla, entonces el segundo grupo está diseñado para describir completamente su comportamiento a lo largo del tiempo, es decir, la dinámica articulatoria del habla. Según el supuesto existente, la etapa inicial y principal en la organización del proceso de formación del habla es un programa de un complejo de movimientos articulatorios controlados por el sistema nervioso central humano, correspondiente al mensaje cuya transmisión está planificada en un momento dado. [1, 2]. No hay duda de que el carácter individual del resultado de la actividad del habla ya está determinado a nivel del sistema nervioso central, es decir, a nivel de síntesis de programas articulatorios. Los factores decisivos en este proceso son puntos como las habilidades del habla socialmente condicionadas del hablante, su experiencia individual, su estructura psicológica (en particular, su temperamento), sus rasgos de carácter e incluso su inteligencia. El control del proceso del habla no se puede llevar a cabo sin estos componentes básicos. Cabe señalar que por programa articulatorio se entiende un programa que contendría las reglas para pronunciar determinadas estructuras. Estas reglas se relacionan con el control de la entonación del habla, su ritmo, acentuación, volumen, es decir, con el control de las características prosódicas del habla. En este caso, el programa articulatorio se extiende a una unidad semántica del habla como el sintagma. El sintagma se entiende como una unidad de habla rítmico-melódica, diseñada gramaticalmente y que expresa un pensamiento relativamente completo dentro de un todo más complejo (por ejemplo, una oración). Dentro de un sintagma, se distinguen características suprasegmentales o características de entonación del flujo del habla. Los parámetros principales aquí son la intensidad, la melodía o el movimiento del tono principal, el sistema de acentuación, las características del tiempo (duración de los segmentos, pausas, tempo), el patrón rítmico de la frase del habla.
Un estudio del patrón rítmico de una frase del habla ha demostrado que su patrón temporal permanece invariante para un programa articulatorio individual, independientemente de las duraciones absolutas de las palabras y sílabas individuales incluidas en su composición, es decir, permanece invariante con respecto a la tempo del habla [1]. Esta posición permite suponer la existencia en el sistema nervioso central de unos circuitos únicos para cada persona que aseguran la generación de una secuencia determinada y repetitiva de acciones del aparato del habla en el tiempo. Al analizar la articulación intrasílaba, se reveló que si bien es el resultado de movimientos secuenciales, se puede suponer que estos movimientos no son dictados por el sistema nervioso central de forma secuencial uno tras otro, sino que se obtienen de forma refleja.
Para calcular los parámetros que describen la dinámica articulatoria del habla, se pueden utilizar los métodos de análisis de datos espectral-temporales descritos anteriormente. Sin embargo, es necesario señalar una característica del cálculo de parámetros prosódicos como su estricta conexión con el contexto léxico y sintáctico de la frase en estudio. Esto requiere el uso integrado tanto de herramientas de análisis lingüístico como de métodos de procesamiento paramétrico, lo que determina claramente la complejidad del análisis de estas características. En este caso, la tarea principal es establecer una conexión directa entre la actividad del aparato productor del habla (la dinámica de sus movimientos articulatorios) y las características del patrón espectral del flujo del habla.
Continuando con la conversación sobre los parámetros de la señal del habla que determinan la individualidad de la voz de una persona, es necesario plantear la cuestión de los parámetros integrales del habla. Estos parámetros, por su naturaleza, no pueden atribuirse a ninguno de los grupos característicos anteriores, pero están fuertemente correlacionados con ellos y se forman bajo la influencia de las características anatómicas del tracto productor del habla y la actividad articulatoria de una persona.
Los métodos de investigación subjetivos permiten establecer que en la señal del habla existe una fuente de voz específica en forma de un fondo constante. El oído de una persona, al filtrar fácilmente la información que necesita, monitorea constantemente el color de su voz. A veces, sin distinguir completamente los elementos fonéticos del habla e incluso el significado de la oración hablada, una persona identifica fácilmente al hablante por el flujo característico de los parámetros de la voz.
Esta circunstancia ha llevado a muchos investigadores a utilizar algunas propiedades integrales de la señal del habla como rasgos característicos de la voz, es decir, propiedades que aparecen en forma de valores promediados sobre el segmento de toda la señal analizada. Si la duración de una señal se presenta desde un punto de vista estadístico y su duración permite la manifestación de leyes del lenguaje como el patrón de aparición de frecuencias de fonemas individuales, entonces se cree que el análisis de los parámetros integrales del habla La señal permite determinar las características de la pronunciación individual de segmentos de voz de diferente contenido fonético. Esta suposición concuerda con la experiencia cotidiana, cuando la identificación estable del hablante no depende del contenido fonético del habla.
Una de las características integrales más utilizadas es el espectro medio ponderado del habla. A pesar de que este parámetro de voz es el tipo más simple de procesamiento de datos primarios, se considera uno de los signos efectivos de identificación de voz en un flujo de voz continuo. El tono de la voz del hablante, que puede expresarse como la frecuencia media del tono fundamental de la señal del habla durante un período de tiempo determinado, es importante y, en algunos casos, decisivo. Además, este parámetro se puede presentar en forma de diagramas de la distribución de períodos del tono fundamental.
Así, los parámetros de la señal del habla descritos anteriormente caracterizan varios aspectos de la producción de la voz humana. Dependiendo del concepto elegido para construir un sistema de identificación, éste se basará en diferentes parámetros. La mayoría de ellos se analizan mediante métodos clásicos, otros requieren modos especiales de selección y procesamiento, que se analizarán a continuación.
Principios de la construcción de sistemas automáticos de reconocimiento de hablantes
La mayoría de los sistemas desarrollados hasta la fecha para la identificación personal por voz se basan en una verificación única de la correspondencia de la frase clave requerida y la pronunciada en el momento inicial de acceso al sistema informático. Estos sistemas admiten dos modos operativos principales: capacitación del sistema y autenticación de acceso.
En el primer modo (registro), se pide al usuario que diga una frase clave (contraseña) varias veces, normalmente con una duración limitada a 3-4 segundos. En este caso, el sistema de identificación se entrena en segmentos de habla promedio basándose en los resultados de registrar varias pronunciaciones. La clave grabada se puede almacenar en su totalidad o comprimirse con algoritmos eficientes que permiten almacenar parámetros de voz individuales sin distorsión (métodos de predicción lineal). Algunos sistemas eliminan las áreas del habla débilmente expresadas (pausas, ruidos, explosiones de energía) de la frase clave grabada dividiéndola en segmentos correspondientes a los fonemas de la lengua base, de los que luego se extrae el conjunto de parámetros necesarios. Como regla general, los sistemas descritos anteriormente utilizan parámetros relacionados con las características anatómicas del aparato del habla y parámetros integrales. Para eliminar la posibilidad de sustitución o destrucción de frases de referencia, se almacenan en archivos protegidos contra escritura.
En el modo de verificación, la frase clave hablada se compara con la frase de referencia mediante el cálculo de distancia. métodos
en un espacio paramétrico N-dimensional entre dos implementaciones, donde N — la dimensión del vector paramétrico, y M — número de vectores ordenados en el tiempo. Si el valor
no supera el umbral de identificación establecido, se toma la decisión de identificar positivamente este voto.
Para los sistemas que analizan la pronunciación individual de sonidos individuales, la decisión se toma calculando la función de correlación cruzada de los parámetros de los fonemas de referencia y control en el máximo del lóbulo principal.
La principal ventaja de los sistemas descritos anteriormente es su facilidad de construcción. Las amplias posibilidades para su implementación basadas en procedimientos estándar de procesamiento de señales digitales (DSP) y los bajos requisitos de recursos informáticos y memoria de la computadora han convertido a estos sistemas en casi un ejemplo de libro de texto en el estudio de la teoría de la identificación automática de una persona mediante la voz.
Sin embargo, una serie de inconvenientes importantes limitan su uso generalizado. En primer lugar, estos sistemas tienen un alto nivel de errores del primer tipo (“falsa alarma”) y del segundo tipo (“no alcanzar el objetivo”). Esto se debe a la dificultad de pronunciar la frase clave de la misma forma cada vez que se accede al sistema (variabilidad a corto plazo) y a los cambios anatómicos en el tracto vocal a lo largo de la vida (variabilidad a largo plazo). En este sentido, la contraseña se puede pronunciar con diferentes ritmos y entonaciones, en diferentes estados emocionales y en condiciones de enfermedad del aparato del habla del hablante. La estabilidad de los parámetros de las frases clave depende de diversas condiciones de grabación y reconocimiento acústico, de cambios en la distancia al micrófono, de las condiciones de ruido externo, etc. Estos factores inevitablemente desdibujan las áreas de reconocimiento en el espacio paramétrico N-dimensional correspondiente a voces específicas. y con un gran número de usuarios dan lugar a una importante superposición. Para reducir los efectos de la variabilidad en los parámetros de reconocimiento y la duración de la pronunciación, casi todos los sistemas de identificación construidos según el principio descrito anteriormente utilizan mecanismos de normalización. Cabe señalar que los procedimientos de normalización, «jalando» el vector en estudio al centro más cercano del área de reconocimiento, inevitablemente deforman las áreas vecinas, dejando el mismo porcentaje de superposición. Por tanto, el uso de tales procedimientos no cambia el significado de los errores del primer y segundo tipo. Minimizar los errores del primer y segundo tipo sólo se puede lograr seleccionando características altamente informativas y no correlacionadas que garanticen una superposición mínima de las distribuciones de los parámetros de identificación en el espacio vectorial.
Sin embargo, dado un algoritmo de aprendizaje, un espacio métrico y una distribución probabilística conocida de parámetros individuales, existe el problema de la selección óptima del umbral de identificación. El umbral de identificación se expresa por la proporción de errores del primer y segundo tipo, y su valor viene dictado por las tareas específicas y el ámbito de aplicación del sistema de identificación. En los casos en que sea necesario evitar en la medida de lo posible la entrada de una persona no autorizada, el error del segundo tipo debe minimizarse maximizando el error del primer tipo. Un aumento en el error del primer tipo, es decir, una rara omisión del «objetivo», también crea condiciones difíciles para la admisión de «la propia» persona, lo que requerirá un aumento en el número de nuevas consultas del sistema. En los casos en los que se debe admitir a un usuario «amigo» desde la primera expresión, aunque se esté de acuerdo con la posibilidad de penetración de un «extraño», el error del primer tipo debe minimizarse maximizando el error del segundo tipo.
Como regla general, en sistemas de identificación confiables, los autores de programas se ven obligados a seguir el primer camino, que requiere que el usuario repita la pronunciación de la contraseña, o incluso que se le niegue completamente el acceso, si su voz cambia como resultado de una enfermedad del aparato del habla. Por lo tanto, los usuarios de sistemas informáticos, por regla general, abandonan dichos mecanismos de identificación y vuelven a la tradicional y más conveniente entrada de contraseña desde el teclado.
Además, los sistemas construidos según el principio descrito anteriormente pueden ser pirateados si el atacante tiene un fragmento grabado de una frase clave que podría escuchar u obtener bajo la influencia de la fuerza. Por lo tanto, los sistemas de identificación más complejos para resolver el problema de la «suplantación» de claves utilizan una determinada base de datos de contraseñas generada por el sistema en la etapa de capacitación. En este concepto, el sistema de identificación selecciona aleatoriamente una contraseña de esta base de datos y solicita al usuario que diga una nueva frase clave cada vez. Dado que el atacante no sabe de antemano qué contraseña propondrá el sistema para pronunciar, no puede utilizar la clave grabada. Estos sistemas se denominan dependientes del texto y requieren el uso de algoritmos para determinar la composición fonémica de una frase clave. Como regla general, estos sistemas no realizan análisis lingüísticos de la señal del habla, limitándose únicamente a la correspondencia de los parámetros del fonema al principio y al final de la frase clave y el estándar.
La complejidad de implementar este mecanismo de identificación radica en la formación de una base de datos de contraseñas con un número suficientemente grande de claves para cada usuario. El modo de aprendizaje en tales sistemas puede llevar mucho tiempo (hasta varias horas). También es posible que con el uso de algoritmos modernos y equipos de procesamiento digital del habla, el atacante tenga la oportunidad de sintetizar las respuestas de un usuario legítimo basándose en sus modelos de fonemas individuales (convertidores de texto y voz). Aunque la frase sintetizada diferirá de la realmente pronunciada, especialmente en los lugares de transición de un fonema a otro, sólo el poderoso mecanismo analítico del oído humano puede detectar distorsiones, pero no un sistema de identificación basado en el principio descrito anteriormente.
Teniendo en cuenta las deficiencias de los mecanismos de control de acceso existentes descritos anteriormente, recientemente se han llevado a cabo investigaciones activas sobre la posibilidad de construir sistemas interactivos para la identificación personal por voz. A diferencia de la mayoría de los sistemas de identificación existentes, los sistemas de diálogo se basan en el análisis de características prosódicas (el segundo grupo de características), que se expresan más claramente no en la pronunciación única de palabras, frases e incluso oraciones clave individuales, sino en un acto significativo de comunicación entre personas. Esto explica el deseo de construir algoritmos de identificación en el marco de un modelo de comunicación entre una persona y una computadora. Las características prosódicas tienen la propiedad de resistencia a los cambios en el entorno acústico, la variabilidad a corto y largo plazo de los parámetros del tracto productor del habla del hablante.
Cabe señalar que el problema del diálogo entre humanos y computadoras es parte del problema general de la creación de sistemas de inteligencia artificial y se encuentra en la intersección de varias ciencias, lo que indica su complejidad. Por lo tanto, se propone adoptar un sistema de conversión de voz como base para un sistema de comunicación dialogada entre una persona y una computadora. texto, a partir del cual se puede crear un sistema de control de voz por computadora. A diferencia de los sistemas de identificación dependientes de texto, el método de diálogo implementa no solo una respuesta única del usuario a una oración o pregunta solicitada desde una base de datos de contraseñas, sino también su expansión a una interfaz de voz por computadora completa. La máquina acepta comandos del usuario y los ejecuta sólo si la voz del hablante coincide con la registrada. Este concepto de construcción de un sistema de control de acceso informático determinará su competitividad y resistencia a ataques externos.
Una característica del sistema de control de acceso desarrollado es que el procedimiento de identificación basado en características prosódicas se incluye en el proceso de procesamiento de comandos o mensajes provenientes del operador. Esta integración nos permite eliminar el principal inconveniente del análisis prosódico: la necesidad de un gran volumen de muestras de señales de voz para el entrenamiento y, en consecuencia, mucho tiempo y memoria de computadora. Durante el proceso de control del habla por computadora, el sistema de identificación recibe una cantidad suficiente de material de habla que el propio hablante pasa desapercibido. Este enfoque nos permite excluir un modo de entrenamiento separado para el sistema y llevarlo a la etapa de trabajo del usuario con la computadora. Evidentemente, en este caso es recomendable construir un sistema de identificación como sistema en tiempo real.
El uso de un sistema de comando en modo de acceso único a un objeto (por ejemplo, en un punto de control) no logrará el efecto requerido debido a la complejidad de entrenar el sistema y analizar frases clave breves. En el caso de una «comunicación» frecuente y prolongada entre una persona y el mismo objeto (por ejemplo, una computadora personal), las estadísticas sobre la actividad articulatoria del usuario se acumulan en grandes volúmenes de datos del habla, lo que reducirá significativamente la cantidad de errores cometidos. por el sistema.
Como se señaló anteriormente, el análisis prosódico es más efectivo en condiciones de actividad real del habla del hablante, lo que requiere el desarrollo de sistemas de control de comando y transformación del habla — texto en una corriente de habla continua. Estos mecanismos resuelven el problema opuesto en comparación con los sistemas descritos anteriormente. Si los sistemas de identificación analizan las diferencias entre las pronunciaciones de usuarios específicos, entonces los mecanismos de reconocimiento de voz deben determinar las generales. Esta tarea es parte del problema general del reconocimiento y comprensión automáticos del habla.
Literatura
1. Ramishvili G.S. Identificación automática del hablante por voz. M.: Radio y Comunicaciones, 1981.
2. Bloom F. Leiserson A., Hofstadter L. Cerebro, mente y comportamiento. M.: Mir, 1988.
3. Rabiner L., Shafer R. Procesamiento digital de señales de voz. M.: Radio y Comunicaciones, 1981.
4. Markel J., Gray A. X. Predicción lineal del habla/Transl. del ingles M.: Comunicación, 1980.
5. Marple Jr. S. L. Análisis espectral digital y su aplicación/Transl. del ingles M.: Mir, 1990.