Мегаобучалка Главная | О нас | Обратная связь


Глава 3 Перспективы кодирования речи.



2019-07-04 299 Обсуждений (0)
Глава 3 Перспективы кодирования речи. 0.00 из 5.00 0 оценок




В данной главе будут коротко рассмотрены перспективы использования различных речевых кодеков в сетях связи общего пользования.

Рассмотрим некоторые параметры наиболее распространенных кодеков сетей общего пользования.

Однако, кроме кодеков ИКМ по G.711, на ССОП в настоящее время при­меняются аналого-цифровые преобра­зователи других типов, использующие те или иные способы компрессии речи и поэтому имеющие меньшую скорость передачи цифрового сигнала по срав­нению со стандартным кодеком ИКМ. Основные области применения низкоскоростных кодеков: • системы подвижной связи (в част­ности, цифровые сотовые и транкинговые системы); • аппаратура DCME (в небольшом количестве используется на сети ОАО «Ростелеком»); • абонентские компьютерные и мультимедийные терминалы, аппара­ты IP-телефонии;

• цифровые беспроводные телефоны.

 

Таблица 6.1. Наиболее распространенные кодеки.

Кодек Наименование Скорость кбит/с Стандарт  
Standard PCM Стандартный ИKM кодек для сетей с коммута­цией каналов 64 ITU-T G.711
GSM-FR PRE-LTP Кодек 1-го поколения GSM с возбуждением регулярной последовательностью импульсов и долговременным предсказанием 13 ETSIGSM 06.16
GSM-HR VCELP Кодек GSM (с «половинной» скоростью) с ли­нейным предсказанием и возбуждением вектор­ной суммой 5,6 ETSIGSM 06.20
GSM-EFR ACELP Кодек 2-го поколения GSM с алгебраическим кодовым возбуждением и линейным предсказа­нием 12,2 ETSIGSM 06.60
Videophone ACELP Речевой кодек для мультимедийной связи с ал­гебраическим кодовым возбуждением и линей­ным предсказанием 5,3 ITU-T G.723.1
Videophone MP-MLQ Речевой кодек для мультимедийной связи с мно­гоимпульсным квантованием по критерию прав­доподобия 6,3 ITU-T G.723.1
ADPCM Кодек АДИКМ (адаптивной дифференциальной ИКМ) 40, 32, 24, 16 ITU-T G.726
LD-CELP Кодек с линейным предсказанием, с кодовым возбуждением и малой задержкой 16, 12, 8, 9, 6 ITU-T G.728
CS-ACELP Кодек с линейным предсказанием, алгебраи­ческим кодовым возбуждением и сопряженной структурой 8 ITU-T G.729

Низкоскоростным кодекам свойственны определенные ухудшения параметров, влияющие на качество передачи речи, по сравнению со стандартным кодеком ИКМ. Важно, что эти ухудшения накапливаются при тандемном включении как однородных, так и разнородных низкоскоростных кодеков.

Следует отметить следующие основные факторы, влияющие на каче­ство передачи речи при использовании кодеков:

• искажения квантования;

• временная задержка;

• амплитудно-частотные искаже­ния;

• битовые ошибки;

• проскальзывания;

• потеря кадров;

• потеря пакетов.

Планирование речевых соедине­ний требует обязательного учета ухуд­шений, вносимых каждым переходом А-Ц и Ц-А, и определения на этой ос­нове допустимого количества таких пе­реходов. Для этой цели используется так называемая Е-модель, разработанная ETSI и рекомендуемая МСЭ-Т при планировании речевых соединений «из конца в конец». Эта модель позволяет в комплексе учесть практически все ухуд­шающие факторы.

Наиболее важным параметром Е-модели является коэффициент ухудшения за счет аппа­ратуры, обозначаемый Ic. Чем больше этот коэффициент, тем большую долю деградации вносит данная аппаратура (конкретно – кодек). В табл. 6.2 для срав­нения показаны значения для различ­ных кодеков.

 


Таблица 6.2

Кодек Скорость кбит/с Стандарт Ic (G.113)
Standard PCM 64 ITU-T G.711 0
GSM-FR PRE-LTP 13 ETSIGSM 06.16 20 (25-42)*
GSM-HR VCELP 5,6 ETSIGSM 06.20 23 (32-45)*
GSM-EFR ACELP 12,2 ETSIGSM 06.60 5 (15-35)*
Videophone ACELP 5,3 ITU-T G.723.1 19
Videophone MP-MLQ 6,3 ITU-T G.723.1 15
ADPCM 40, 32, 24, 16 ITU-T G.726 2, 7, 25, 50
LD-CELP 16, 12, 8, 9, 6 ITU-T G.728 7, 20
CS-ACELP 8 ITU-T G.729 10

* – при наличии битовых ошибок

 

Проблема задержки сигнала. Среди многих факторов, влияющих на каче­ство передачи речи, можно отметить задержку сигнала в терминалах и узлах сети.

Желательной является задержка, не превышающая 150 мс, поскольку кроме задержки следует учитывать и другие ухудшающие факторы. Как уже указы­валось, задержка, вносимая стандарт­ными кодеками ИКМ, незначительна и составляет меньше 0,4 мс.

Существенное увеличение задержки по сравнению со стандартными кодека­ми ИКМ дают низкоскоростные кодеки. В частности, только сами кодеки в тер­миналах GSM вносят задержку в 60 мс, что эквивалентно времени прохождения через волоконно-оптическую линию связи (ВОЛС) длиной 12000 км. Проце­дура «фрейминга» (формирования кад­ров) на радиоинтерфейсе добавляет еще 35 мс задержки.

В табл. 6.3 представлены задержки, вносимые речевыми кодеками (МСЭ-Т G.114) различных типов, и соответст­вующие эквивалентные длины ВОЛС. Из таблицы следует, что задержки в низкоскоростных кодеках весьма велики, что делает дополнительные перекоди­ровки практически недопустимыми. При этом нельзя упускать из виду по­вышенные задержки в таких сетевых элементах как шлюзы, маршрутизато­ры и т. д.

 

Таблица 6.3

Кодек Стандарт Средняя задержка, мс Эквивалентная длина ВОЛС, км
Standard PCM ITU-T G.711 0,375 75
GSM-FR RPE-LTR ETSI GSM 06.10 95 19000
GSM-HR VCELP ETSI GSM 06.20 95 19000
GSM-EFRACELP ETSI GSM 06.60 95 19000
Videophone ACE LP ITU-TG.723.1 97,5 19500
Videophone MP-MLQ ITU-T G.723.1 97,5 19500
ADPCM ITU-T G.726 0,375 75
LD-CELP ITU-T G.728 1.875 375
CS-ACELP ITU-T G.729 35 7000

 

Таким образом, приходится делать выбор между качеством связи и шириной канала поэтому задача проектирования наиболее качественных кодеков для низкоскоростных каналов с высоким уровнем помех весьма актуальна.

Рассмотрим наиболее эффективные, сегодня методы практической реализации низкоскоростных (1,2—2,4 кбит/с) MELP-вокодеров. предназначенных для работы в канале с высоким процентом канальных ошибок, и основные направления совершенствования данных методов.

В качестве базового алгоритма вокодера был выбран алгоритм MELP–2400, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарт США FS-1016. Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием и, кроме того, содержит ряд дополнительных особенностей:

• вся рабочая область частот делится на пять полос; в каждой из которых принимается решение о классе сигнала возбуждения — «шумовой» или «голосовой». Таким образом суммарный сигнал возбуждения является смешанным;

• форма «голосового» сигнала возбуждения реконструи­руется в декодере с помощью амплитуд коэффициентов Фу­рье, вычисленных в анализирующей части вокодера:

• для реализации одиночных импульсов возбуждения применяются «апериодические» импульсы;

• с целью улучшения «натуральности» звучания синте­зированной речи применяются дисперсионный и адаптивный фильтры.

Суммарный список параметров, передаваемых от коле­ра к декодеру за один речевой фрейм длительностью 22.5 мс, представлен в табл. 6.4.

 

Таблица 6.4.

Параметр «Голосовой» фрейм (бит) «Шумовой» фрейм (бит)
Линейные спектральные пары 25 25
Амплитуды преобразования Фурье сигнала возбуждения 8
Коэффициенты усиления (2 за фрейм) 8 8
Период основного тона, общая озвученность фрейма 7 7
Озвученность по полосам 4
Флаг периодичности 1
Защита от ошибок 13
Синхробит 1 1
Всего за кадр, 22.5 мс 54 54

 

Выбранный вокодер обеспечивает хорошее звучание синтезированной речи при скорости битового потока 2,4 кбит/с и величине битовых ошибок не более.

Задача практической реализации низкоскоростного воко­дера, имевшего приемлемое качество синтезированной речи при ошибках в канале до 5%, решалась в два этапа. Первоначально была снижена скорость битового речевого потока до 1,2 кбит/с без существенной деградации качества выходного речевого сигнала. Далее были выбраны оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки, и разработан метод замены выбитых речевых параметров на интерполированные значения параметров предшествующих фреймов. После этого суммарная скорость потока информационных и проверочных бит составила 2,4 кбит/с.

Вокодер с битовой скоростью 1,2 кбит/с. При понижении скорости битового потока основное внимание уделялось сохранению разборчивости речи. Анализ алгоритма MELP–2400 показал, что амплитуды преобразования Фурье сигнала возбуждения отвечают в основном за узнаваемость диктора и передачу интонации. Поэтому в спроектированном вокодере MELP–1200 они не используются. Передача коэффициента усиления один раз за фрейм также не приводит к существенному ухудшению разборчивости. Для дальнейшего понижения битовой скорости была разработана техника передачи линейных спектральных пар (ЛСП) только по четным фреймам с помощью адаптивного выбора фреймов на основе решетчатой структуры с критичными изменениями. Для нечетных фреймов вектор ЛСП находился с помощью интерполяционных методов. Также для уменьшения числа бит была использована частота границы голосовой активности с двухбитовой кодировкой.

 

Суммарный список параметров алгоритма MELP-1200, передаваемых от кодера к декодеру за один речевой фрейм длительностью 45 мс, представлен в табл. 6.5.

 

Таблица 6.5

Параметр «Голосовой» фрейм (бит) «Шумовой» фрейм (бит)
Линейные спектральные пары 25 25
Амплитуды преобразования Фурье сигнала возбуждения
Коэффициенты усиления (2 за фрейм) 5+5 5+5
Период основного тона, общая озвученность фрейма 7+7 7+7
Озвученность по полосам 2+2
Флаг периодичности 1 1
Защита от ошибок
Синхробит
Всего за кадр, 22.5 мс 54 50

 

Вокодер с битовой скоростью 2,4 кбит/с для работы в каналах с величиной ошибок до 5% (MELP–C–2400). Для исправления ошибок битового потока было исследовано несколько классов кодов. Наиболее оптимальными в смысле качества восстановленной речи оказались коды Хэмминга (8,4), позволяющие исправлять одиночную ошибку в четырех информационных битах и определять наличие ошибки в 2 бита, а также коды Голея (23,12), исправляющие три ошибки в двенадцати информационных битах. При проектировании был сделан выбор в пользу кодов Хэмминга. В результате к 54 информационным битам добавлялись 54 проверочных, и общая скорость битового потока составила 2,4 кбит/с.

Предлагаемый алгоритм по­строения низкоскоростного вокодера MELP—С-2400 был про­моделирован на персональном компьютере с использованием языка программирования «СИ» при представлении данных в формате с фиксированной запятой. Для определения качества синтезированной речи использовалась диагностическая мера приемлемости (Diagnostic Acceptability Measure — DAM). Для этой цели были использованы шесть wav-файлов с муж­скими голосами и шесть wav-файлов с женскими голосами, которые затем прослушивались на выходе тракта 30 слуша­телями, после чего определялась средняя оценка мнений — MOS. Такой метод называется методом субъективной оцен­ки качества.

Таким образом, на основании полученных ре­зультатов можно сделать следующие выводы:

1. Вокодер MELP-I200 имеет разборчивость синтезиро­ванной речи близкую к вокодеру MELP-2400 и может быть ис­пользован в каналах с пропускной способностью 1,2 кбит/с,

2. При битовых ошибках в канале более 1% вокодер MELP—С-2400 существенно улучшает качество синтезиро­ванной речи.

Что касается улучшения качества корректирующих ко­дов, то наиболее целесообразным представляется применение сверточных кодов со скоростью 1/3. Как показывают исследо­вания, в этом случае при использовании схемы декодера Виттерби с мягким решением приемлемое качество речи можно обеспечивать при вероятности канальной ошибки до 10%. В каналах с памятью эффективным может оказаться приме­нение каскадных кодов (например, последовательное коди­рование кодами Рида-Соломона или сверточными кодами) или турбокодов.

Дальнейшее понижение скорости битового потока во­кодера возможно при использовании модифицированных кодовых книг, отражающих возможные сочетания ЛСП, и суммарного векторного кодирования речевых параметров. При этом ожидаемая скорость речепреобразующих устройств может не превысить 800 бит/с при словесной разборчивости речи не менее 90%.

 

Далее рассмотрим кодеки и протоколы, непосредственно используемые в IP-телефонии. Эта тема очень важна, так как есть концепции по переводу в режим IP-телефонии всех сотовых и стационарных сетей.

Задача управления установлением соединений. Общий прин­цип действия Интернет-телефонии состоит в передаче аналогового речевого сигнала от телефонного аппарата или учреж­денческой АТС в маршрутизатор для сжатия и преобразова­ния речевого сигнала в пакеты данных. Эти пакеты передаются по сети Интернет в удаленный маршрутизатор. Последний преобразует пакеты данных обратно в речевой сигнал, кото­рый и передается в телефонный аппарат или на УАТС. В соответствии с такой схемой, описанной, в частности, в рекомендациях МСЭ Н.323/Н.248, требуется выполнение до­статочно сложных преобразований между техникой Интернет-телефонии и коммутируемой телефонной сетью общего по­льзование. Одним из путей преодоления возникших труднос­тей, предпринятых группой инженерной поддержки Интернета IETF (Internet Engineering Task Force), стада разработка протокола запуска соединения SIP (Session Initiation Protocol). Он применим для интегрированной среды Интернета и коммутируемой телефонной сети общего пользования.

SIP относится к протоколам прикладного уровня семиу­ровневой эталонной модели ВОС МОС как структура про­токола HTTP типа "клиент-сервер". При обработке пакетов этого протокола команды и состояния могут передаваться в виде чистого текста посредством считывания данных пакетов HTTP. Поэтому протокол SIP очень подходит для архитектуры передачи по широкомасштабной информационно-вычи­слительной сети. В его структуре должен быть сформирован, по крайней мере, один сервер соединений SIP в дополнение к агентам пользователей. Сервер соединений SIP может рабо­тать как сервер-представитель (proxy-server), сервер изменения направления (redirect server), сервер регистрации (registry server), сервер речевой почты (voice mail server), и др. Сервер соединений функционально является интегрированным про­граммным обеспечением и может быть соединен с существую­щей коммутируемой сетью общего пользования, сетью Ин­тернет-телефонии и т.п.

Протоколы Н.323 и SIP во многом схожи. Оба они поддерживают как двухстороннюю, так и многостороннюю связь. Протоколы обеспечивают возможность передачи муль­тимедийных данных по протоколу реального времени RTP (Real Time Protocol) и родственному ему управляющему транспортному протоколу реального времени RTCP (Real­time Transport Control Protocol). Последний выполняет функ­ции поддержки обратной связи, синхронизации, обеспечения пользовательского интерфейса, но не управляет передачей данных. Вместе с тем протоколы Н.323 и SIP резко разли­чаются концепциями и основополагающими принципами. Н.323 довольно тяжеловесен. Его описание занимает 1400 страниц и содержит целый стек протоколов, точно регламен­тирующих все процедуры. Это упрощает взаимодействие существующих сетей, но вызывает затруднения при адаптации новых применений. Что же касается протокола SIP. то это типичный Интернет-протокол, работа которого основана на обмене короткими тестовыми строками. Его описание зани­мает гораздо меньший объем (250 страниц), и он хорошо взаимодействует с другими протоколами.

Строго говоря, протокол SIP тоже определяет многоуров­невый стек, который включает сетевой уровень, транспортный уровень, уровень транзакций, необязательный уровень диало­га и собственно прикладной уровень, или уровень услуги. Однако эти уровни достаточно просты по сравнению с иерархией протокола Н.323. Так, сетевой уровень протокола SIP обеспечивает связь и взаимодействие с соответствующим протоколом сети Интернет (IP), чтобы каждый элемент протокола SIP связывался по Интернету. Транспортный уровень протокола SIP определяет, как клиент посылает запросы и принимает ответы и как сервер принимает запросы и посылает ответы по сети. Сервер протокола SIP предста­вляет собой сетевой элемент, принимающий запросы, чтобы обслужить их и посылает обратно ответы на эти запросы. Транспортный уровень ответствен также за формирование сообщений SIP и их передачу по сети. Следующим уровнем протокола S1P является уровень транзакций. Транзакцией называется запрос, посылаемый уровнем транзакций клиента (с помощью транспортного уровня) уровню транзакций сервера вместе СО всеми ответами на запросы, посланные уровнем транзакций сервера, обратно клиенту. Уровень транзакций ответствен за согласование последовательности сообщений и за повторную передачу и фильтрацию дубли­рующих сообщений протокола SIP при ненадежности транс­портного уровня. В любой задаче, выполняемой клиентом агента пользователя, применяется последовательность тран­закций. Уровень, находящийся над уровнем транзакций, – это пользователь транзакций или уровень услуг. Иначе говоря, это приложение, запускаемое на самом верхнем уровне стека протокола SIP, который обеспечивает конкретную функцию элемента.

Между уровнем услуг я уровнем транзакций может существовать необязательный уровень диалога. Диалог по протоколу SIP идентифицирует набор соответствующих тран­закций. Например, при стандартном телефонном соединении двумя транзакциями, относящимися к одному диалогу по протоколу SIP, являются установка соединения и разъедине­ние. Уровень диалога ответствен за согласование последова­тельностей транзакций и управление при их неполноте. Элементы протокола SIP посылают запросы и ответы другим элементам SIP в форме сообщений. Эти сообщения содержат обширную информацию, касающуюся таких деталей, как адреса источников, адреса назначения, подробности маршру­тов, указатели соединений, последовательные номера, и другие сведения относительно работы протокола. Формат сообщений SIP обладает значительной гибкостью в том смысле, что информация в заголовке может быть составлена и упорядочена внутри сообщения, и возможна ситуация, когда сообщения логически эквивалентны, тогда как синтаксически они различны. Например, протокол SIP не указывает для многих заголовков порядок, в котором они должны появля­ться в сообщении. Кроме того, заголовки SIP обычно нейтральны, и стеки протокола от разных поставщиков могут строить сообщения различными способами. Однако важно, что все стеки протокола SIP совместимы друг с другом.

Декодирование сообщений SIP выполняется грамматиче­ским анализатором, который является интегральной соста­вляющей стека протокола SIP. Он изучает сообщение и извлекает информацию, относящуюся к конкретному уровню. Вследствие различия путей, по которым может быть получено сообщение SIP, передающее одну и ту же информацию, грамматический анализатор имеет возможность выделять информацию заголовка, данные о параметрах, и т.п., незави­симо от формирования сообщения. Например, грамматиче­ский анализатор может копировать печатные знаки верхнего и нижнего регистра, варианты выделения заголовка, печатные знаки в строке, пробелы, знаки препинания, знаки в таблицах, и т.п. Таким образом, грамматический анализатор обеспечи­вает функции комплексного анализа. Стеки протокола SIP обычно представляются как общие готовые компоненты и реализуют полную спецификацию протокола SIP, делая их пригодными для использования с любым типом элемента SIP.

Каждый тип элементов протокола SIP представляет раз­ные степени функциональной сложности, и количество сооб­щений, обрабатываемых каждым типом элемента, варьирует­ся. Например, компоненты агента пользователя SIP и серверы агента пользователя могут выполнять сложные задачи обра­ботки и связи, например, при установке соединения, хотя число сообщений, обрабатываемых клиентом агента пользо­вателя, обычно сравнительно невелико. Так, сервер агента пользователя может только обрабатывать сообщения в связи с запросами на установление соединений, поступающих от клиента. Если соединение установлено и никаких изменений в его параметрах не произошло, клиент или сервер агента пользователя не будут обрабатывать дальнейшие сообщения до тех пор, пока соединение не завершится. С другой стороны, иные элементы (такие, как серверы изменения направления протокола SIP) выполняют более простые задачи обработки, но принимают значительно большее количество сообщений. Например, сервер изменения направления протокола SIP выполняет сравнительно простую задачу регистрации отобра­жения между адресом источника SIP и адресом IP, которого адрес источника SIP может достичь. Это фундаментальная задача в сети SIP, так как серверы изменения направления используются представителями SIP, чтобы получить IP-адрес аппарата пользователя для маршрутизации соединения. Это важно, в частности, в случаях, когда доступ к сети получают мобильные клиенты, так как обычно адреса IP назначаются динамически и могут часто меняться. Кроме того, для гарантии, что отображаемая информация не устарела, каждый мобильный клиент обычно посылает с частыми интервалами сообщение REGISTER. Из изложенного ясно, что число сообщений, которые должны обрабатываться сервером изме­нения направления, существенно больше, чем число сообще­ний, обрабатываемых клиентом агента пользователя. Напри­мер, серверы текущей регистрации могут обрабатывать от 200 до 1000 операций регистрации в секунду.

Задачи кодирования речевых сигналов. Важным фактором ощущаемого качества кодера является полоса звуковых частот, в которой передается кодируемый сигнал. До настоящего времени большинство кодеков, испо­льзуемых в современной телефонной связи, занимают полосу 300...3400 Гц (так называемая узкополосная речь). Это огра­ничение существует почти 100 лет, причем сами сети полосу частот не ограничивают (ограничение обусловлено характери­стиками применяемых преобразователей). Именно частота 3,4 кГц была принята в качестве верхней граничной для комму­тируемой телефонной сети общего пользования в стандарте цифровой передачи G.711. Хотя большая часть энергии чаше всего содержится в гласных звуках, которые занимают полосу частот ниже 3 кГц, согласные, несущие критическую информацию, часто требуют полосы частот выше 3 кГц. Поэтому узкополосные системы могут ухудшить разборчи­вость, например, звуки "с" и "ф" различаются только за счет частот выше 3 кГц. С другой стороны, увеличение полосы частот сигнала до 50...7000 Гц (так называемой широкой полосы), улучшает разборчивость, что требует от слушателя меньшей концентрации внимания, а следовательно, значите­льно снижает усталость.

Сегодня в эксплуатации много узкополосных речевых кодеров - начиная с G.711, который применяется в КТСОП со скоростью передачи 64 кбит/с, до G.729 (8 кбит/с) и G.723.1 (6,4 и 5,3 кбит/с), которые используются в услугах мультимедиа. Одним из кодеров, разработанных для мобиль­ных сетей и работы с разными скоростями передачи вплоть до 43 кбит/с, является адаптивный многоскоростной кодек AMR (Adaptive Multi-Rate). В настоящее время мало работ по новым узкополосным кодерам - может быть, потому, что уже существуют кодеры для большинства применений. Един­ственная область, в которой появляются новые узкополосные кодеры - это специальные разработки для пакетных систем Интернет-телефонии. В них созданы более робастные к потерям пакетов кодеры, чем предыдущие кодеры, разрабо­танные для сетей с коммутацией каналов. Это кодеры iLBC (предложенные комиссией IETF) и Enhanced G.711J про­изводства Global IP Sound, Steex.

Рассмотрим их основные характеристики и применение.

iLBC (internet Low Bitrate Codec) – это свободный от лицензионных отчислений кодек для голосовой связи через интернет. Кодек предназначен для узкополосных интернет каналов, со скоростью передачи аудио сигнала (человеческой речи) 13.33 кбит/с при длине кадра в 30 мс или 15.20 кбит/с при 20 мс. Кодек iLBC позволяет добиться хорошего качества передачи аудио сигнала даже при некоторых искажениях, которые происходят в связи с потерей или задержкой пакетов.

 

iLBC описан в стандарте в RFC 3951. Это один из кодеков, который используется в Gizmo Project, Ekiga, OpenWengo, Google Talk, Skype и Yahoo! Messenger.

· Частота дискретизации 8 кГц/16 бит (160 отсчетов для 20-мс кадров, 240 отсчетов для 30-мс кадров)

· Управляемая реакция на потерю пакетов, задержки и джиттер

· Фиксированный битрейт (15.2 кбит/с для 20-мс кадров, 13.33 кбит/с для 30-мс кадров)

· Фиксированный размер кадра (304 бита в кадре для 20-мс кадров, 400 бит в кадре для 30-мс кадров)

· Обеспечивается устойчивость к потерям пакетов на уровне ИКМ со скрытием потерь пакетов, как в ITU-T G.711

· Загрузка процессора на уровне G.729a при более высоком качестве и лучшей реакции на потерю пакетов

· Лицензионная чистота и свобода от лицензионных отчислений

· Коммерческое использование исходного кода, предлагаемого GIPS, требует лицензирования

· Тестирование PSQM при идеальных условиях приводит к усредненной субъективной оценке (MOS) в 4.14 для iLBC (15.2 кбит/с), сравнимой с оценкой 4.45 для G.711 (Мю-закон)

 

Speex – это свободный кодек для сжатия речевого сигнала, который может использоваться в VoIP приложениях и подкастах. Он не имеет никаких патентных ограничений и лицензирован под последней версией лицензии BSD (без третьей статьи). Speex может быть использован совместно с медиа-контейнером Ogg или передаваться напрямую через UDP/RTP.

Разработчики позиционируют их проект как дополнение к Vorbis, формату сжатия звука общего назначения.

В отличие от многих других кодеков речи, Speex в основном предназначается не для сотовых телефонов, а для использования в Voice over IP (VoIP) и создания файлов со сжатым звуком. Speex оптимизирован для получения высококачественного речевого сигнала при низких битрейтах. Для достижения этой цели кодек использует переменный битрейт и поддерживает разные диапазоны частот: сверхширокий (англ. ultra-wideband, частота дискретизации 32 КГц), широкий (англ. wideband, 16 КГц) и узкий (англ. narrowband, качество телефонной линии, 8 КГц). Направленность на Voice over IP (VoIP) вместо сотовой связи означает, что Speex должен быть устойчив к потерям пакетов данных, но не к повреждению их, так как UDP (протокол неподтверждаемой доставки сообщений) предоставляет информацию лишь двух видов — данные прибыли неповрежденными или же потеряны. Эта особенность определяет выбор для Speex техники кодирования Code Excited Linear Prediction (CELP).

Основные характеристики кодека:

· Свободное и открытое программное обеспечение, не имеет патентных ограничений

· Интеграция широко- и узкополосного канала в одном потоке данных

· Динамическое переключение битрейта и переменный битрейт (англ. Variable bit-rate, VBR)

· Детектор речевой активности (англ. Voice Activity Detection, VAD, интегрирован с VBR)

· Variable complexity

· Опция декодера — интенсивное стерео (англ. Intensity stereo)

 

Однако наряду с разработками узкополосных речевых кодеков большое внимание специалистов привлекают широ­кополосные речевые кодеки, рассчитанные на полосу частот речевого сигнала 50...7000 Гц. Первые широкополосные кодеры G.722 (48. 56 и 64 кбит, с) были стандартизированы МСЭ в 1988 г. Первоначально предполагалось, что они заменят кодеры G.711, когда ЦСИО получат более широкое распространение. Это кодеры со сложной формой сигнала, которые работают с двумя поддиапазонами и имеют хорошие характеристики, но невысокий коэффициент сжатия. Затем последовала рекомендация G.722.1 (24 и 32 кбит/с) на кодер, широко используемый в настоящее время в терминалах конференц-связи.

В 2000 г. проектом 3GPP был стандартизирован кодер AMR-WB (Adaptive Multi-Rate Wide Band) для применения в мобильных системах третьего поколения. В 2001 г. он был стандартизирован МСЭ в качестве последнего широкополос­ного кодера G.722.2. Кодер работает с разными скоростями передачи от 6,6 до 23,85 кбит/с, но его вычислительная сложность может быть ограничена возможностями реализа­ции. Очень важно, что обе организации (МСЭ и 3GPP) приняли один и тот же кодер, так как это устраняет необходимость перекодирования при работе между провод­ными и беспроводными сервисами. В конечном счете это снизит стоимость и улучшит характеристики передачи "из конца в конец". По проекту 3GPP также реализована версия AMR-WB+ (в 2004 г.). Она позволяет улучшить характери­стики при передаче неречевых сигналов и является обратно совместимым расширением стандарта AMR-WB. Цель версии возможность применения в системах передачи с коммута­цией пакетов также услуг мультимедиа. В Интернете можно найти сведения и о многих других разработках широкополос­ных кодеков. Расширен для широкополосного применения и кодек G.729 путем создания возможности многоскоростной передачи (рекомендация G.729EV 2006 г.).

Обзор развития достижений в области техники кодирования речевых сигналов дает основания считать, что в настоящее время существуют все предпосылки для постепенного повсе­местного перевода телефонной связи на полосу 50-7000 Гц. Этот вывод относится не только к сети Интернет и пакетной передаче, но и к традиционным цифровым телефонным сетям общего пользования. Скорость передачи 64 кбит/с в таких сетях вполне достаточна для существенного повышения качества передачи и разборчивости речи за счет изменения системы кодирования в оконечных пунктах.


 

Список литературы.

 

1. Шелухин О.И., Лукьянцев Н.Ф. «Цифровая обработка и передача речи». М., «Радио и связь», 2000.

2. А.М. Меккель. «Влияние переходов «аналог-цифра и «цифра-аналог» при построении сетей на основе перспективных технологий». «Электросвязь».–2008. –№6. –с. 41-48.

3. М.И. Максимов, Н.А. Сидорова, О.В. Чернояров. «Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок». «Электросвязь». –2008. – №7. –с. 48-50.

4. А.А. Иванов, О.И. Фаерберг, К.Ю. Никашев. «Концепция модернизация сети общего пользования». «Электросвязь». –2008. –№8. –с. 18-23.

5. В.И. Нейман, Д.А. Селезнев. «Интернет-телефония и перспективы ее развития». «Электросвязь». –2008. –№1. –с. 6-9.

6. http://ru.wikipedia.org/wiki/Speex

7. http://ru.wikipedia.org/wiki/ILBC



2019-07-04 299 Обсуждений (0)
Глава 3 Перспективы кодирования речи. 0.00 из 5.00 0 оценок









Обсуждение в статье: Глава 3 Перспективы кодирования речи.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (299)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.016 сек.)