Передача речи в современных сетях связи.. Статья обновлена в 2023 году.

Передача речи в современных сетях связи.

Быков Сергей Федорович
Шалимов Игорь Анатольевич, кандидат технических наук

ПЕРЕДАЧА РЕЧИ В СОВРЕМЕННЫХ СЕТЯХ СВЯЗИ.

 

На рубеже двух столетий мы становимся свидетелями воплощения в жизнь известной фразы: “кто владеет информацией тот владеет миром”. Информация – это знания, это деньги, это возможность управления людьми, это власть. Невозможно переоценить роль и значение информации в современном обществе. Реализовать заложенные в информации возможности можно обеспечив ее правильное использование или, говоря образно, движение. Для обеспечения этого движения” человечеством созданы многообразные институты, технические комплексы, регламентирующие и обеспечивающие возможность связи внутри общества. Виды этой связи чрезвычайно обширны, но, касаясь технической стороны вопроса и рассматривая связь как передачу информации на расстояние, необходимо из всего многообразия выделить телефонную связь.

Телефонная связь, обладая такими характеристиками, как оперативность, узнаваемость по голосу, возможность двустороннего обмена, является наиболее привлекательной. Для целей передачи голоса по цифровым каналам связи применяются разнообразные методы кодирования речевых сигналов, начиная от непосредственного преобразования в код и заканчивая сложными математическими алгоритмами на основе линейного предсказания и кодового возбуждения. Современный уровень развития систем и сетей передачи информации открывает новые возможности по дальнейшему совершенствованию способов кодирования речи, призванных существенно повысить эффективность как существующих, так и вновь вводимых в эксплуатацию каналов и трактов.

Речь по сетям может передаваться несколькими способами.

Первый – передача речи с постоянной скоростью. Это традиционный способ передачи. Он может использоваться в сетях как с коммутацией каналов, так и с коммутацией пакетов. При этом обеспечивается достаточное, для большинства приложений, качество и приемлемые задержки передачи.

Второй – передача речи с переменной скоростью по сетям обеспечивающих передачу потоков с переменной скоростью. Высокая эффективность этих сетей достигается, когда применяется коллективный доступ с кодовым разделением - CDMA (Code Division Multiple Access), существенно приспособлен к потокам информации c переменной скоростью ([1], [2]). Наиболее гибкая система включает модуль контроля переменной скорости - VRCU (Variable Rate Control Unit), созданный для обеспечения оптимального распределения полосы пропускания канала между различными источниками информации (см. рис. 1).

Каждый источник информации (речь, видео, данные и управляющие сигналы) формирует информационные потоки ri(n), которые являются функцией кадра n и поступают в блок кодирования канала. Затем полученные битовые потоки, каждый со своей избыточностью, с переменными скоростями Ri(n) мультиплексируются в выходной поток битов со скоростью Rtot(n) с динамически распределяемыми полосами пропускания.

VRCU обеспечивает оптимальное распределение ресурсов канала связи, для чего анализирует:

  • потребности источников информации,
  • потребности системы,
  • требования пользователей,
  • возможности канала связи.

Таким образом, можно отметить, что, с одной стороны, современные системы и сети связи обладают возможностями по управлению потоками с переменной скорости, а, с другой стороны, существует необходимость эффективного использования пропускной способности каналов связи. Это делает актуальными, во-первых, задачу разработки алгоритмов кодирования речи с переменной скоростью, и, во-вторых, задачу модификации существующих алгоритмов для перехода к переменной скорости передачи.

 

Рис. 1. Иллюстрация процесса управления потоками с переменными скоростями.

Высокое качество речи, достигаемое в алгоритмах многоимпульсного и кодового возбуждения, при относительно невысоких скоростях передачи, обеспечило их широкое распространение в различных системах и сетях связи. При попытках передачи речи с использованием этих методов на скоростях 4 кбит/с и ниже, качество речи снижается. Одна из возможностей дальнейшего снижения скорости передачи с сохранением высокого качества – это переход к переменной скорости передачи, учитывающей информационные избыточности отдельных сегментов речевых сигналов. Хорошо известно ([3], [4]), что информация необходимая для точного представления речевого сигнала, изменяется во времени. Это является основой для разработки и применения переменной скорости передачи в технике кодирования речи.

В настоящее время существует несколько подходов к построению кодеров речи переменной скорости передачи. Они основываются на классификации сегментов речевого сигнала по определенному признаку и применении различных систем кодирования на разных сегментах.

Один из подходов базируется на фонетической классификации сегментов речи. Этот метод используется в разработках лаборатории Fujitsu, Rockwell International Corporation, фирмах Hughes Aircraft, Qualcomm и др. ([5]). В общем случае структуру такого кодера представлена на рисунке 2. Цель классификации состоит в том, чтобы выделить несколько фонетических категорий, которые соответствуют различным уровням энтропий речевого сигнала и удовлетворяют кодированию с переменной скоростью.

 

Рис. 2. Блок-схема кодера переменной скорости передачи.

Фонетическая классификация осуществляется на речевых сегментах сигнала и управляет выбором соответствующей системы кодирования данного сегмента. Фонетическая классификация предложенная в [5], осуществляется по признаку вокализованный/невокализованный. Для этого основной интервал анализа длиной 20 мсек делится на 4 подсегмента по 5 мсек и определяется их тип – вокализованный либо невокализованный.

Классификация сегментов производится по типами его подсегментов в соответствии с таблицей 1.

Таблица 1: Классификация сегментов речи.

Класс

Подсегмент 1

Подсегмент 2

Подсегмент 3

Подсегмент 4

U Невокализов. Невокализов. Невокализов. Невокализов.
UO Невокализов. Невокализов. Не определен Не определен
OV Не определен Не определен Вокализован. Вокализован.
V Вокализован. Вокализован. Вокализован. Вокализован.

Фонетическая классификация действует как предпроцессор, который определяет, какой кодирующий алгоритм должен использоваться для выделенного сегмента речи.

Рис. 3. Структурная схема кодера переменной скорости с фонетической классификацией. Пунктирные линии указывают на блоки, работа которых зависит от фонетического типа.

На рис. 3 показано, как классификатор фонетической информации управляет различными составляющими кодера и декодера, а именно, LPC анализом, структурой и размером книг кодов возбуждения, фильтром взвешивания. На рисунке не показан адаптивный постфильтр сигнала возбуждения декодера (LTP-синтезатор), который применяется только для обработки вокализованных сегментов.

Блок выбора сигнала возбуждения по разному работает на вокализованных, невокализованных и неопределенных сегментах. Это выражается в размерах используемых кодовых книг, кодировании усиления и, кроме того, для вокализованных сегментов вычисляются параметры долговременного предсказания (LTP) сигнала возбуждения.

Как показали исследования ([5]), выходная речь такого кодера звучит естественно и свободна от поющих или реверберационных искажений, характерных для низкоскоростных CELP кодеров. Качество речи оценивалось для чистого речевого сигнала и в случае его искажения шумом подобным шуму транспортного средства. Средняя скорость была ниже 3 кбит/с. При этом качество было не хуже чем у кодера федерального стандарта США 1016 - CELP фиксированной скорости 4.8 кбит/с.

Другой подход для учета избыточности речевых сигналов и, как следствие, создание кодера переменной скорости, был применен в разработках комитета научно-исследовательских программ, финансируемых комиссией европейского комитета. Разработанный кодер FVR-CELP (Fast Variable Rate CELP Coder быстрый CELP кодер переменной скорости) обеспечивает высокое качество при средней скоростью около 6 кбит/с и пиковой скорости 16 кбит/с. Основное внимание при разработке кодера было уделено алгоритму классификации сегментов и ограничению алгоритмической задержки, равной 10 мс ([1]). 

Рис. 4. Структурная схема FVR-CELP кодера.

В кодере анализируются сегменты длины 10 мсек (80 отсчетов), каждый сегмент делится на четыре подсегмента по 2.5 мсек (20 отсчетов). В анализаторе выделяются параметры относящиеся как ко всему сегменту, так и к его подсегментам. Выбором алгоритма работы кодера и, соответственно, изменением скорости передачи, управляют два блока классификации (см. рис. 4):

один блок проводит классификацию непосредственно по речевому сигналу,

второй применяет замкнутый алгоритм – метод анализа через синтез.

Прямой классификатор проводит анализ сегмента речи по признаку пауза – речь и для речи по признаку вокализованный невокализованный.

Всего в FVR кодере предусмотрено 8 режимов работы, получаемых в результате классификации замкнутым методом выделенных типов сегментов (см. рис. 5).

Структурная схема FVR кодера представляет собой много-уровневый CELP алгоритм, который включает: кратковременный (ST) анализатор, долговременный (LT) анализатор, постоянные кодовые книги сигналов возбуждения А и В.

 

Рис. 5. Блок-схема алгоритма выбора скорости работы.

Блок комфортного звучания пауз обеспечивает, в результате применения разных алгоритмов анализа, шумовое заполнение пауз 3-х типов: нулевое (1), случайным шумовым сигналом (2) либо сигналом близким по форме к исходному (3) (см. таб. 2).

Таблица 2: Категории кодирования и скорости передачи.

 

Параметры

Категория кодирования

1 2 3 4 5 6 7 8
Коэффициент усиления сигнала + +
Параметры кратковременного (ST) анализатора + + + + + +
Параметры долговременного (LT) анализатора + + +
Кодовая книга А + + + +
Кодовая книга В + +
Скорость передачи (кбит/с) 0 0,4 3,2 8,5 12,5 7,2 12 16

Блок “эволюция качества относится к замкнутому классификатору и обеспечивает подключение средств дополнительного анализа сигнала возбуждения (см. таб. 2) в случае, если взвешенная погрешность предсказания превышает некоторый порог. В результате объем передаваемых для сегмента параметров увеличивается, что приводит к возрастанию скорости передачи.

Выбор скорости передачи выполняется так, что для каждого сегмента обеспечивается постоянное качество восстановленной речи. В результате, алгоритм проявил значительную помехоустойчивость к различным условиям окружающей среды, а также к различным дикторам. Формализованные субъективные испытания качества методом парных сравнений подтвердили возможность для этого кодера обеспечить качество близкое к стандарту G.728 ([1]).

Фирмой QUALCOMM Incorporated был разработан алгоритм кодера переменной скорости, реализованный в виде однокристальной микросхемы - Q4401 [6]. Кодер Q4401 удовлетворяет требованиям сжатия речи систем цифровой телефонной связи, систем хранения и синтеза речи. Программно реализованный алгоритм QUALCOMM Codebook Excited Linear Predictive (QCELP) обеспечивает высокое качество речи при низких скоростях передачи данных.

Q4401 кодирует речь в режиме фиксированных или переменных скоростей передачи данных. В режиме фиксированной скорости Q4401 может кодировать речь на скоростях 4 кбит/сек, 4.8 кбит/сек, 8 кбит/сек или 9.6 кбит/сек. В переменном режиме Q4401 автоматически регулирует каждые 20 мсек скорость передачи данных в диапазоне от 800 бит\сек до 8 кбит/сек (нормальный режим переменной скорости) или от 800 бит\сек до 9.6 кбит/сек (расширенный режим переменной скорости). В режиме переменной скорости, Q4401 обеспечивает среднюю скорость 7 кбит/сек в приложениях с непрерывной речью и 3.5 кбит/сек при обычной двусторонней телефонной связи, без значительного ухудшения качества речи.

Кодер Q4401 работает на временном интервале 20 мсек (160 отсчетов). Алгоритм работы кодера основан на CELP методе. Процесс кодирования речи включает: измерение энергии речевого сигнала, определение алгоритма кодирования и соответственно скорости передачи данных, динамическое регулирование частотных границ, и кодирование речи в блоки сжатых данных. Кодер посылает 25-байтовый блок данных на процессор каждые 20 мсек. Каждый кодируемый пакет содержит один байт, определяющий скорость передачи данных и 24 байтов данных, которые содержат кодированную речь. Количество информационных бит блока зависит от выбранной скорости передачи данных, оставшиеся биты 24-х байтового кадра заполняются нулями.

Алгоритм кодирования (в режиме переменной скорости) для каждого сегмента речи длиной 20 мсек выбирается в зависимости от энергии сигнала на этом сегменте. Если энергия сигнала высока, будет использоваться максимальная скорость. Если энергия сигнала на среднем уровне, то будет использоваться промежуточное значение скорости. Если энергия сигнала низкая, будет использоваться скорость передачи данных 800 бит\сек. Средняя скорость для обычного телефонного разговора составляет примерно 6 кбит/с, качество приближается к стандарту G.728.

Таким образом, в настоящее время существует несколько систем кодирования речи, основанных на переменной скорости передачи. Эти системы, используя для классификации сегментов различные характеристики речи, основываются на CELP-алгоритмах. Исходя из современного состояния и перспектив развития систем и сетей связи можно утверждать, что подход к кодированию речи с переменной скоростью будет развиваться и получит широкое распространение. В [7] отмечено, что “переменная скорость передачи речи неизбежное направление развития будущих поколений цифровых сетей”.

Использование сложных алгоритмов кодирования речи с переменной скоростью экономит полосу пропускания каналов, повышает эффективность систем и сетей связи. Такие алгоритмы лежат в основе создания и разработки стохастических систем передачи, учитывающих статистические особенности передаваемой информации.

 

ЛИТЕРАТУРА

  • Cellario L., Sereno D. CELP Coding at Variable Rate. // ETT, Vol.5, № 5 September-October 1994, pp. 603-613.
  • Berutto E., Sereno D. Variable-rate for the basic speech service in UMTS. VTC. Secaucus NJ 1993, pp. 520-523.
  • Вокодерная телефония. Методы и проблемы. Под. ред. А.А. Пирогова. – М.: Связь, 1974, - С. 536.
  • Михайлов В.Г., Златоустова Л.В. Измерение параметров речи./ Под ред. М.А. Сапожкова. – М.: Радио и связь, 1987. – С. 168.
  • Paksoy E., Srinivasan K., Gersho A. Variable Bit-Rate CELP Coding of Speech with Phonetic Classification. // ETT, Vol.5, № 5 September-October 1994, pp. 591-602.
  • Q4401 Variable Rate Vocoder. General Description. QUALCOMM Incorporated, ASIC Products 6455 Lusk Boulevard, San Diego, 1997.
  • Gersho A., Paksoy E. Variable rate speech coding for cellular networks. / Speech and Audio Coding for Wireless and Network Application. Kluwer Academic Publishers. 1993, p. 77-84.
  •