Глава 3 Перспективы кодирования речи.

2019-07-04

299

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 3 4 5 6 7 8 9 10 1112

В данной главе будут коротко рассмотрены перспективы использования различных речевых кодеков в сетях связи общего пользования.

Рассмотрим некоторые параметры наиболее распространенных кодеков сетей общего пользования.

Однако, кроме кодеков ИКМ по G.711, на ССОП в настоящее время применяются аналого-цифровые преобразователи других типов, использующие те или иные способы компрессии речи и поэтому имеющие меньшую скорость передачи цифрового сигнала по сравнению со стандартным кодеком ИКМ. Основные области применения низкоскоростных кодеков: • системы подвижной связи (в частности, цифровые сотовые и транкинговые системы); • аппаратура DCME (в небольшом количестве используется на сети ОАО «Ростелеком»); • абонентские компьютерные и мультимедийные терминалы, аппараты IP-телефонии;

• цифровые беспроводные телефоны.

Таблица 6.1. Наиболее распространенные кодеки.

Кодек	Наименование	Скорость кбит/с	Стандарт
Standard PCM	Стандартный ИKM кодек для сетей с коммутацией каналов	64	ITU-T G.711
GSM-FR PRE-LTP	Кодек 1-го поколения GSM с возбуждением регулярной последовательностью импульсов и долговременным предсказанием	13	ETSIGSM 06.16
GSM-HR VCELP	Кодек GSM (с «половинной» скоростью) с линейным предсказанием и возбуждением векторной суммой	5,6	ETSIGSM 06.20
GSM-EFR ACELP	Кодек 2-го поколения GSM с алгебраическим кодовым возбуждением и линейным предсказанием	12,2	ETSIGSM 06.60
Videophone ACELP	Речевой кодек для мультимедийной связи с алгебраическим кодовым возбуждением и линейным предсказанием	5,3	ITU-T G.723.1
Videophone MP-MLQ	Речевой кодек для мультимедийной связи с многоимпульсным квантованием по критерию правдоподобия	6,3	ITU-T G.723.1
ADPCM	Кодек АДИКМ (адаптивной дифференциальной ИКМ)	40, 32, 24, 16	ITU-T G.726
LD-CELP	Кодек с линейным предсказанием, с кодовым возбуждением и малой задержкой	16, 12, 8, 9, 6	ITU-T G.728
CS-ACELP	Кодек с линейным предсказанием, алгебраическим кодовым возбуждением и сопряженной структурой	8	ITU-T G.729

Низкоскоростным кодекам свойственны определенные ухудшения параметров, влияющие на качество передачи речи, по сравнению со стандартным кодеком ИКМ. Важно, что эти ухудшения накапливаются при тандемном включении как однородных, так и разнородных низкоскоростных кодеков.

Следует отметить следующие основные факторы, влияющие на качество передачи речи при использовании кодеков:

• искажения квантования;

• временная задержка;

• амплитудно-частотные искажения;

• битовые ошибки;

• проскальзывания;

• потеря кадров;

• потеря пакетов.

Планирование речевых соединений требует обязательного учета ухудшений, вносимых каждым переходом А-Ц и Ц-А, и определения на этой основе допустимого количества таких переходов. Для этой цели используется так называемая Е-модель, разработанная ETSI и рекомендуемая МСЭ-Т при планировании речевых соединений «из конца в конец». Эта модель позволяет в комплексе учесть практически все ухудшающие факторы.

Наиболее важным параметром Е-модели является коэффициент ухудшения за счет аппаратуры, обозначаемый I_c. Чем больше этот коэффициент, тем большую долю деградации вносит данная аппаратура (конкретно – кодек). В табл. 6.2 для сравнения показаны значения для различных кодеков.

Таблица 6.2

Кодек	Скорость кбит/с	Стандарт	I_c (G.113)
Standard PCM	64	ITU-T G.711	0
GSM-FR PRE-LTP	13	ETSIGSM 06.16	20 (25-42)*
GSM-HR VCELP	5,6	ETSIGSM 06.20	23 (32-45)*
GSM-EFR ACELP	12,2	ETSIGSM 06.60	5 (15-35)*
Videophone ACELP	5,3	ITU-T G.723.1	19
Videophone MP-MLQ	6,3	ITU-T G.723.1	15
ADPCM	40, 32, 24, 16	ITU-T G.726	2, 7, 25, 50
LD-CELP	16, 12, 8, 9, 6	ITU-T G.728	7, 20
CS-ACELP	8	ITU-T G.729	10
* – при наличии битовых ошибок

Проблема задержки сигнала. Среди многих факторов, влияющих на качество передачи речи, можно отметить задержку сигнала в терминалах и узлах сети.

Желательной является задержка, не превышающая 150 мс, поскольку кроме задержки следует учитывать и другие ухудшающие факторы. Как уже указывалось, задержка, вносимая стандартными кодеками ИКМ, незначительна и составляет меньше 0,4 мс.

Существенное увеличение задержки по сравнению со стандартными кодеками ИКМ дают низкоскоростные кодеки. В частности, только сами кодеки в терминалах GSM вносят задержку в 60 мс, что эквивалентно времени прохождения через волоконно-оптическую линию связи (ВОЛС) длиной 12000 км. Процедура «фрейминга» (формирования кадров) на радиоинтерфейсе добавляет еще 35 мс задержки.

В табл. 6.3 представлены задержки, вносимые речевыми кодеками (МСЭ-Т G.114) различных типов, и соответствующие эквивалентные длины ВОЛС. Из таблицы следует, что задержки в низкоскоростных кодеках весьма велики, что делает дополнительные перекодировки практически недопустимыми. При этом нельзя упускать из виду повышенные задержки в таких сетевых элементах как шлюзы, маршрутизаторы и т. д.

Таблица 6.3

Кодек	Стандарт	Средняя задержка, мс	Эквивалентная длина ВОЛС, км
Standard PCM	ITU-T G.711	0,375	75
GSM-FR RPE-LTR	ETSI GSM 06.10	95	19000
GSM-HR VCELP	ETSI GSM 06.20	95	19000
GSM-EFRACELP	ETSI GSM 06.60	95	19000
Videophone ACE LP	ITU-TG.723.1	97,5	19500
Videophone MP-MLQ	ITU-T G.723.1	97,5	19500
ADPCM	ITU-T G.726	0,375	75
LD-CELP	ITU-T G.728	1.875	375
CS-ACELP	ITU-T G.729	35	7000

Таким образом, приходится делать выбор между качеством связи и шириной канала поэтому задача проектирования наиболее качественных кодеков для низкоскоростных каналов с высоким уровнем помех весьма актуальна.

Рассмотрим наиболее эффективные, сегодня методы практической реализации низкоскоростных (1,2—2,4 кбит/с) MELP-вокодеров. предназначенных для работы в канале с высоким процентом канальных ошибок, и основные направления совершенствования данных методов.

В качестве базового алгоритма вокодера был выбран алгоритм MELP–2400, разработанный фирмой Texas Instruments и выигравший открытый конкурс по замене кодека федерального стандарт США FS-1016. Данный алгоритм основан на традиционной параметрической модели кодирования с линейным предсказанием и, кроме того, содержит ряд дополнительных особенностей:

• вся рабочая область частот делится на пять полос; в каждой из которых принимается решение о классе сигнала возбуждения — «шумовой» или «голосовой». Таким образом суммарный сигнал возбуждения является смешанным;

• форма «голосового» сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера:

• для реализации одиночных импульсов возбуждения применяются «апериодические» импульсы;

• с целью улучшения «натуральности» звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.

Суммарный список параметров, передаваемых от колера к декодеру за один речевой фрейм длительностью 22.5 мс, представлен в табл. 6.4.

Таблица 6.4.

Параметр	«Голосовой» фрейм (бит)	«Шумовой» фрейм (бит)
Линейные спектральные пары	25	25
Амплитуды преобразования Фурье сигнала возбуждения	8	–
Коэффициенты усиления (2 за фрейм)	8	8
Период основного тона, общая озвученность фрейма	7	7
Озвученность по полосам	4	–
Флаг периодичности	1	–
Защита от ошибок	–	13
Синхробит	1	1
Всего за кадр, 22.5 мс	54	54

Выбранный вокодер обеспечивает хорошее звучание синтезированной речи при скорости битового потока 2,4 кбит/с и величине битовых ошибок не более.

Задача практической реализации низкоскоростного вокодера, имевшего приемлемое качество синтезированной речи при ошибках в канале до 5%, решалась в два этапа. Первоначально была снижена скорость битового речевого потока до 1,2 кбит/с без существенной деградации качества выходного речевого сигнала. Далее были выбраны оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки, и разработан метод замены выбитых речевых параметров на интерполированные значения параметров предшествующих фреймов. После этого суммарная скорость потока информационных и проверочных бит составила 2,4 кбит/с.

Вокодер с битовой скоростью 1,2 кбит/с. При понижении скорости битового потока основное внимание уделялось сохранению разборчивости речи. Анализ алгоритма MELP–2400 показал, что амплитуды преобразования Фурье сигнала возбуждения отвечают в основном за узнаваемость диктора и передачу интонации. Поэтому в спроектированном вокодере MELP–1200 они не используются. Передача коэффициента усиления один раз за фрейм также не приводит к существенному ухудшению разборчивости. Для дальнейшего понижения битовой скорости была разработана техника передачи линейных спектральных пар (ЛСП) только по четным фреймам с помощью адаптивного выбора фреймов на основе решетчатой структуры с критичными изменениями. Для нечетных фреймов вектор ЛСП находился с помощью интерполяционных методов. Также для уменьшения числа бит была использована частота границы голосовой активности с двухбитовой кодировкой.

Суммарный список параметров алгоритма MELP-1200, передаваемых от кодера к декодеру за один речевой фрейм длительностью 45 мс, представлен в табл. 6.5.

Таблица 6.5

Параметр	«Голосовой» фрейм (бит)	«Шумовой» фрейм (бит)
Линейные спектральные пары	25	25
Амплитуды преобразования Фурье сигнала возбуждения	–	–
Коэффициенты усиления (2 за фрейм)	5+5	5+5
Период основного тона, общая озвученность фрейма	7+7	7+7
Озвученность по полосам	2+2	–
Флаг периодичности	1	1
Защита от ошибок	–	–
Синхробит	–	–
Всего за кадр, 22.5 мс	54	50

Вокодер с битовой скоростью 2,4 кбит/с для работы в каналах с величиной ошибок до 5% (MELP–C–2400). Для исправления ошибок битового потока было исследовано несколько классов кодов. Наиболее оптимальными в смысле качества восстановленной речи оказались коды Хэмминга (8,4), позволяющие исправлять одиночную ошибку в четырех информационных битах и определять наличие ошибки в 2 бита, а также коды Голея (23,12), исправляющие три ошибки в двенадцати информационных битах. При проектировании был сделан выбор в пользу кодов Хэмминга. В результате к 54 информационным битам добавлялись 54 проверочных, и общая скорость битового потока составила 2,4 кбит/с.

Предлагаемый алгоритм построения низкоскоростного вокодера MELP—С-2400 был промоделирован на персональном компьютере с использованием языка программирования «СИ» при представлении данных в формате с фиксированной запятой. Для определения качества синтезированной речи использовалась диагностическая мера приемлемости (Diagnostic Acceptability Measure — DAM). Для этой цели были использованы шесть wav-файлов с мужскими голосами и шесть wav-файлов с женскими голосами, которые затем прослушивались на выходе тракта 30 слушателями, после чего определялась средняя оценка мнений — MOS. Такой метод называется методом субъективной оценки качества.

Таким образом, на основании полученных результатов можно сделать следующие выводы:

1. Вокодер MELP-I200 имеет разборчивость синтезированной речи близкую к вокодеру MELP-2400 и может быть использован в каналах с пропускной способностью 1,2 кбит/с,

2. При битовых ошибках в канале более 1% вокодер MELP—С-2400 существенно улучшает качество синтезированной речи.

Что касается улучшения качества корректирующих кодов, то наиболее целесообразным представляется применение сверточных кодов со скоростью 1/3. Как показывают исследования, в этом случае при использовании схемы декодера Виттерби с мягким решением приемлемое качество речи можно обеспечивать при вероятности канальной ошибки до 10%. В каналах с памятью эффективным может оказаться применение каскадных кодов (например, последовательное кодирование кодами Рида-Соломона или сверточными кодами) или турбокодов.

Дальнейшее понижение скорости битового потока вокодера возможно при использовании модифицированных кодовых книг, отражающих возможные сочетания ЛСП, и суммарного векторного кодирования речевых параметров. При этом ожидаемая скорость речепреобразующих устройств может не превысить 800 бит/с при словесной разборчивости речи не менее 90%.

Далее рассмотрим кодеки и протоколы, непосредственно используемые в IP-телефонии. Эта тема очень важна, так как есть концепции по переводу в режим IP-телефонии всех сотовых и стационарных сетей.

Задача управления установлением соединений. Общий принцип действия Интернет-телефонии состоит в передаче аналогового речевого сигнала от телефонного аппарата или учрежденческой АТС в маршрутизатор для сжатия и преобразования речевого сигнала в пакеты данных. Эти пакеты передаются по сети Интернет в удаленный маршрутизатор. Последний преобразует пакеты данных обратно в речевой сигнал, который и передается в телефонный аппарат или на УАТС. В соответствии с такой схемой, описанной, в частности, в рекомендациях МСЭ Н.323/Н.248, требуется выполнение достаточно сложных преобразований между техникой Интернет-телефонии и коммутируемой телефонной сетью общего пользование. Одним из путей преодоления возникших трудностей, предпринятых группой инженерной поддержки Интернета IETF (Internet Engineering Task Force), стада разработка протокола запуска соединения SIP (Session Initiation Protocol). Он применим для интегрированной среды Интернета и коммутируемой телефонной сети общего пользования.

SIP относится к протоколам прикладного уровня семиуровневой эталонной модели ВОС МОС как структура протокола HTTP типа "клиент-сервер". При обработке пакетов этого протокола команды и состояния могут передаваться в виде чистого текста посредством считывания данных пакетов HTTP. Поэтому протокол SIP очень подходит для архитектуры передачи по широкомасштабной информационно-вычислительной сети. В его структуре должен быть сформирован, по крайней мере, один сервер соединений SIP в дополнение к агентам пользователей. Сервер соединений SIP может работать как сервер-представитель (proxy-server), сервер изменения направления (redirect server), сервер регистрации (registry server), сервер речевой почты (voice mail server), и др. Сервер соединений функционально является интегрированным программным обеспечением и может быть соединен с существующей коммутируемой сетью общего пользования, сетью Интернет-телефонии и т.п.

Протоколы Н.323 и SIP во многом схожи. Оба они поддерживают как двухстороннюю, так и многостороннюю связь. Протоколы обеспечивают возможность передачи мультимедийных данных по протоколу реального времени RTP (Real Time Protocol) и родственному ему управляющему транспортному протоколу реального времени RTCP (Realtime Transport Control Protocol). Последний выполняет функции поддержки обратной связи, синхронизации, обеспечения пользовательского интерфейса, но не управляет передачей данных. Вместе с тем протоколы Н.323 и SIP резко различаются концепциями и основополагающими принципами. Н.323 довольно тяжеловесен. Его описание занимает 1400 страниц и содержит целый стек протоколов, точно регламентирующих все процедуры. Это упрощает взаимодействие существующих сетей, но вызывает затруднения при адаптации новых применений. Что же касается протокола SIP. то это типичный Интернет-протокол, работа которого основана на обмене короткими тестовыми строками. Его описание занимает гораздо меньший объем (250 страниц), и он хорошо взаимодействует с другими протоколами.

Строго говоря, протокол SIP тоже определяет многоуровневый стек, который включает сетевой уровень, транспортный уровень, уровень транзакций, необязательный уровень диалога и собственно прикладной уровень, или уровень услуги. Однако эти уровни достаточно просты по сравнению с иерархией протокола Н.323. Так, сетевой уровень протокола SIP обеспечивает связь и взаимодействие с соответствующим протоколом сети Интернет (IP), чтобы каждый элемент протокола SIP связывался по Интернету. Транспортный уровень протокола SIP определяет, как клиент посылает запросы и принимает ответы и как сервер принимает запросы и посылает ответы по сети. Сервер протокола SIP представляет собой сетевой элемент, принимающий запросы, чтобы обслужить их и посылает обратно ответы на эти запросы. Транспортный уровень ответствен также за формирование сообщений SIP и их передачу по сети. Следующим уровнем протокола S1P является уровень транзакций. Транзакцией называется запрос, посылаемый уровнем транзакций клиента (с помощью транспортного уровня) уровню транзакций сервера вместе СО всеми ответами на запросы, посланные уровнем транзакций сервера, обратно клиенту. Уровень транзакций ответствен за согласование последовательности сообщений и за повторную передачу и фильтрацию дублирующих сообщений протокола SIP при ненадежности транспортного уровня. В любой задаче, выполняемой клиентом агента пользователя, применяется последовательность транзакций. Уровень, находящийся над уровнем транзакций, – это пользователь транзакций или уровень услуг. Иначе говоря, это приложение, запускаемое на самом верхнем уровне стека протокола SIP, который обеспечивает конкретную функцию элемента.

Между уровнем услуг я уровнем транзакций может существовать необязательный уровень диалога. Диалог по протоколу SIP идентифицирует набор соответствующих транзакций. Например, при стандартном телефонном соединении двумя транзакциями, относящимися к одному диалогу по протоколу SIP, являются установка соединения и разъединение. Уровень диалога ответствен за согласование последовательностей транзакций и управление при их неполноте. Элементы протокола SIP посылают запросы и ответы другим элементам SIP в форме сообщений. Эти сообщения содержат обширную информацию, касающуюся таких деталей, как адреса источников, адреса назначения, подробности маршрутов, указатели соединений, последовательные номера, и другие сведения относительно работы протокола. Формат сообщений SIP обладает значительной гибкостью в том смысле, что информация в заголовке может быть составлена и упорядочена внутри сообщения, и возможна ситуация, когда сообщения логически эквивалентны, тогда как синтаксически они различны. Например, протокол SIP не указывает для многих заголовков порядок, в котором они должны появляться в сообщении. Кроме того, заголовки SIP обычно нейтральны, и стеки протокола от разных поставщиков могут строить сообщения различными способами. Однако важно, что все стеки протокола SIP совместимы друг с другом.

Декодирование сообщений SIP выполняется грамматическим анализатором, который является интегральной составляющей стека протокола SIP. Он изучает сообщение и извлекает информацию, относящуюся к конкретному уровню. Вследствие различия путей, по которым может быть получено сообщение SIP, передающее одну и ту же информацию, грамматический анализатор имеет возможность выделять информацию заголовка, данные о параметрах, и т.п., независимо от формирования сообщения. Например, грамматический анализатор может копировать печатные знаки верхнего и нижнего регистра, варианты выделения заголовка, печатные знаки в строке, пробелы, знаки препинания, знаки в таблицах, и т.п. Таким образом, грамматический анализатор обеспечивает функции комплексного анализа. Стеки протокола SIP обычно представляются как общие готовые компоненты и реализуют полную спецификацию протокола SIP, делая их пригодными для использования с любым типом элемента SIP.

Каждый тип элементов протокола SIP представляет разные степени функциональной сложности, и количество сообщений, обрабатываемых каждым типом элемента, варьируется. Например, компоненты агента пользователя SIP и серверы агента пользователя могут выполнять сложные задачи обработки и связи, например, при установке соединения, хотя число сообщений, обрабатываемых клиентом агента пользователя, обычно сравнительно невелико. Так, сервер агента пользователя может только обрабатывать сообщения в связи с запросами на установление соединений, поступающих от клиента. Если соединение установлено и никаких изменений в его параметрах не произошло, клиент или сервер агента пользователя не будут обрабатывать дальнейшие сообщения до тех пор, пока соединение не завершится. С другой стороны, иные элементы (такие, как серверы изменения направления протокола SIP) выполняют более простые задачи обработки, но принимают значительно большее количество сообщений. Например, сервер изменения направления протокола SIP выполняет сравнительно простую задачу регистрации отображения между адресом источника SIP и адресом IP, которого адрес источника SIP может достичь. Это фундаментальная задача в сети SIP, так как серверы изменения направления используются представителями SIP, чтобы получить IP-адрес аппарата пользователя для маршрутизации соединения. Это важно, в частности, в случаях, когда доступ к сети получают мобильные клиенты, так как обычно адреса IP назначаются динамически и могут часто меняться. Кроме того, для гарантии, что отображаемая информация не устарела, каждый мобильный клиент обычно посылает с частыми интервалами сообщение REGISTER. Из изложенного ясно, что число сообщений, которые должны обрабатываться сервером изменения направления, существенно больше, чем число сообщений, обрабатываемых клиентом агента пользователя. Например, серверы текущей регистрации могут обрабатывать от 200 до 1000 операций регистрации в секунду.

Задачи кодирования речевых сигналов. Важным фактором ощущаемого качества кодера является полоса звуковых частот, в которой передается кодируемый сигнал. До настоящего времени большинство кодеков, используемых в современной телефонной связи, занимают полосу 300...3400 Гц (так называемая узкополосная речь). Это ограничение существует почти 100 лет, причем сами сети полосу частот не ограничивают (ограничение обусловлено характеристиками применяемых преобразователей). Именно частота 3,4 кГц была принята в качестве верхней граничной для коммутируемой телефонной сети общего пользования в стандарте цифровой передачи G.711. Хотя большая часть энергии чаше всего содержится в гласных звуках, которые занимают полосу частот ниже 3 кГц, согласные, несущие критическую информацию, часто требуют полосы частот выше 3 кГц. Поэтому узкополосные системы могут ухудшить разборчивость, например, звуки "с" и "ф" различаются только за счет частот выше 3 кГц. С другой стороны, увеличение полосы частот сигнала до 50...7000 Гц (так называемой широкой полосы), улучшает разборчивость, что требует от слушателя меньшей концентрации внимания, а следовательно, значительно снижает усталость.

Сегодня в эксплуатации много узкополосных речевых кодеров - начиная с G.711, который применяется в КТСОП со скоростью передачи 64 кбит/с, до G.729 (8 кбит/с) и G.723.1 (6,4 и 5,3 кбит/с), которые используются в услугах мультимедиа. Одним из кодеров, разработанных для мобильных сетей и работы с разными скоростями передачи вплоть до 43 кбит/с, является адаптивный многоскоростной кодек AMR (Adaptive Multi-Rate). В настоящее время мало работ по новым узкополосным кодерам - может быть, потому, что уже существуют кодеры для большинства применений. Единственная область, в которой появляются новые узкополосные кодеры - это специальные разработки для пакетных систем Интернет-телефонии. В них созданы более робастные к потерям пакетов кодеры, чем предыдущие кодеры, разработанные для сетей с коммутацией каналов. Это кодеры iLBC (предложенные комиссией IETF) и Enhanced G.711J производства Global IP Sound, Steex.

Рассмотрим их основные характеристики и применение.

iLBC (internet Low Bitrate Codec) – это свободный от лицензионных отчислений кодек для голосовой связи через интернет. Кодек предназначен для узкополосных интернет каналов, со скоростью передачи аудио сигнала (человеческой речи) 13.33 кбит/с при длине кадра в 30 мс или 15.20 кбит/с при 20 мс. Кодек iLBC позволяет добиться хорошего качества передачи аудио сигнала даже при некоторых искажениях, которые происходят в связи с потерей или задержкой пакетов.

iLBC описан в стандарте в RFC 3951. Это один из кодеков, который используется в Gizmo Project, Ekiga, OpenWengo, Google Talk, Skype и Yahoo! Messenger.

· Частота дискретизации 8 кГц/16 бит (160 отсчетов для 20-мс кадров, 240 отсчетов для 30-мс кадров)

· Управляемая реакция на потерю пакетов, задержки и джиттер

· Фиксированный битрейт (15.2 кбит/с для 20-мс кадров, 13.33 кбит/с для 30-мс кадров)

· Фиксированный размер кадра (304 бита в кадре для 20-мс кадров, 400 бит в кадре для 30-мс кадров)

· Обеспечивается устойчивость к потерям пакетов на уровне ИКМ со скрытием потерь пакетов, как в ITU-T G.711

· Загрузка процессора на уровне G.729a при более высоком качестве и лучшей реакции на потерю пакетов

· Лицензионная чистота и свобода от лицензионных отчислений

· Коммерческое использование исходного кода, предлагаемого GIPS, требует лицензирования

· Тестирование PSQM при идеальных условиях приводит к усредненной субъективной оценке (MOS) в 4.14 для iLBC (15.2 кбит/с), сравнимой с оценкой 4.45 для G.711 (Мю-закон)

Speex – это свободный кодек для сжатия речевого сигнала, который может использоваться в VoIP приложениях и подкастах. Он не имеет никаких патентных ограничений и лицензирован под последней версией лицензии BSD (без третьей статьи). Speex может быть использован совместно с медиа-контейнером Ogg или передаваться напрямую через UDP/RTP.

Разработчики позиционируют их проект как дополнение к Vorbis, формату сжатия звука общего назначения.

В отличие от многих других кодеков речи, Speex в основном предназначается не для сотовых телефонов, а для использования в Voice over IP (VoIP) и создания файлов со сжатым звуком. Speex оптимизирован для получения высококачественного речевого сигнала при низких битрейтах. Для достижения этой цели кодек использует переменный битрейт и поддерживает разные диапазоны частот: сверхширокий (англ. ultra-wideband, частота дискретизации 32 КГц), широкий (англ. wideband, 16 КГц) и узкий (англ. narrowband, качество телефонной линии, 8 КГц). Направленность на Voice over IP (VoIP) вместо сотовой связи означает, что Speex должен быть устойчив к потерям пакетов данных, но не к повреждению их, так как UDP (протокол неподтверждаемой доставки сообщений) предоставляет информацию лишь двух видов — данные прибыли неповрежденными или же потеряны. Эта особенность определяет выбор для Speex техники кодирования Code Excited Linear Prediction (CELP).

Основные характеристики кодека:

· Свободное и открытое программное обеспечение, не имеет патентных ограничений

· Интеграция широко- и узкополосного канала в одном потоке данных

· Динамическое переключение битрейта и переменный битрейт (англ. Variable bit-rate, VBR)

· Детектор речевой активности (англ. Voice Activity Detection, VAD, интегрирован с VBR)

· Variable complexity

· Опция декодера — интенсивное стерео (англ. Intensity stereo)

Однако наряду с разработками узкополосных речевых кодеков большое внимание специалистов привлекают широкополосные речевые кодеки, рассчитанные на полосу частот речевого сигнала 50...7000 Гц. Первые широкополосные кодеры G.722 (48. 56 и 64 кбит, с) были стандартизированы МСЭ в 1988 г. Первоначально предполагалось, что они заменят кодеры G.711, когда ЦСИО получат более широкое распространение. Это кодеры со сложной формой сигнала, которые работают с двумя поддиапазонами и имеют хорошие характеристики, но невысокий коэффициент сжатия. Затем последовала рекомендация G.722.1 (24 и 32 кбит/с) на кодер, широко используемый в настоящее время в терминалах конференц-связи.

В 2000 г. проектом 3GPP был стандартизирован кодер AMR-WB (Adaptive Multi-Rate Wide Band) для применения в мобильных системах третьего поколения. В 2001 г. он был стандартизирован МСЭ в качестве последнего широкополосного кодера G.722.2. Кодер работает с разными скоростями передачи от 6,6 до 23,85 кбит/с, но его вычислительная сложность может быть ограничена возможностями реализации. Очень важно, что обе организации (МСЭ и 3GPP) приняли один и тот же кодер, так как это устраняет необходимость перекодирования при работе между проводными и беспроводными сервисами. В конечном счете это снизит стоимость и улучшит характеристики передачи "из конца в конец". По проекту 3GPP также реализована версия AMR-WB+ (в 2004 г.). Она позволяет улучшить характеристики при передаче неречевых сигналов и является обратно совместимым расширением стандарта AMR-WB. Цель версии возможность применения в системах передачи с коммутацией пакетов также услуг мультимедиа. В Интернете можно найти сведения и о многих других разработках широкополосных кодеков. Расширен для широкополосного применения и кодек G.729 путем создания возможности многоскоростной передачи (рекомендация G.729EV 2006 г.).

Обзор развития достижений в области техники кодирования речевых сигналов дает основания считать, что в настоящее время существуют все предпосылки для постепенного повсеместного перевода телефонной связи на полосу 50-7000 Гц. Этот вывод относится не только к сети Интернет и пакетной передаче, но и к традиционным цифровым телефонным сетям общего пользования. Скорость передачи 64 кбит/с в таких сетях вполне достаточна для существенного повышения качества передачи и разборчивости речи за счет изменения системы кодирования в оконечных пунктах.

Список литературы.

1. Шелухин О.И., Лукьянцев Н.Ф. «Цифровая обработка и передача речи». М., «Радио и связь», 2000.

2. А.М. Меккель. «Влияние переходов «аналог-цифра и «цифра-аналог» при построении сетей на основе перспективных технологий». «Электросвязь».–2008. –№6. –с. 41-48.

3. М.И. Максимов, Н.А. Сидорова, О.В. Чернояров. «Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок». «Электросвязь». –2008. – №7. –с. 48-50.

4. А.А. Иванов, О.И. Фаерберг, К.Ю. Никашев. «Концепция модернизация сети общего пользования». «Электросвязь». –2008. –№8. –с. 18-23.

5. В.И. Нейман, Д.А. Селезнев. «Интернет-телефония и перспективы ее развития». «Электросвязь». –2008. –№1. –с. 6-9.

6. http://ru.wikipedia.org/wiki/Speex

7. http://ru.wikipedia.org/wiki/ILBC

2019-07-04

299

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 3 4 5 6 7 8 9 10 1112

Обсуждение в статье: Глава 3 Перспективы кодирования речи.

Обсуждений еще не было, будьте первым... ↓↓↓