Мегаобучалка Главная | О нас | Обратная связь


Кодирование речи методами анализа через синтез (AbS)



2019-07-04 362 Обсуждений (0)
Кодирование речи методами анализа через синтез (AbS) 0.00 из 5.00 0 оценок




 

При классификации методов ко­дирования речи на скоростях 4,8... ...16 кбит/с выделяют две основные группы — методы анализа и синтеза (AaS — Analysis-and-Synthesis) и ме­тоды анализа через синтез (AbS – Analysis-by-Synthesis). Хотя такие схе­мы AaS, как RELP, АРС, АТС и SBC успешно работают на скоростях 9,6... 16 кбит/с, при скоростях ниже 9,6 кбит/с они не могут обеспечивать хорошее качество речи. Это объясняется двумя причинами: 1) кодируе­мая речь не анализируется на предмет эффективности, т.е. не производится коррекция искажений в восстановлен­ной речи; 2) ошибки, накопленные в предыдущих фреймах, не учитывают­ся в момент анализа текущего фрейма и беспрепятственно переходят в следу­ющие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах используется процедура оптимизации типа «замкну­тая петля» для нахождения возбужда­ющего сигнала, который при возбужде­нии моделирующего фильтра создает оптимальный речевой сигнал. Это по­зволяет схемам AbS более успешно ра­ботать на скоростях 4,8.. .9,6 кбит/с.

Методы AbS подходят не только для кодирования речи, но могут так­же использоваться для оценки и идентификации. Основная идея AbS такова. Во-первых, допускается, что сигнал можно исследовать и представить в какой-либо форме, например в виде временных или частотных доменов. Затем созданная модель сигнала подвергается оптимизации (подгонке), как показано на рис. 2.6.

Модель имеет несколько параметров, изменение которых приводит к изменению формы моделируемого сигнала. Для нахождения модели сигнала, которая имеет ту же форму, что и модель истинного сигнала, используют процедуры минимизации ошибки. Путем изменении параметров модели находят такой их набор, при котором синтезированный сигнал с минимальной погрешностью совпадает с реальным. Следовательно, когда достигнуто такое совпадение, параметры модели принимаются за параметры истинного сигнала.

Базовая структура системы кодирования AbS-LPC представлена на рис. 2.7. В этой модели есть три компонента, которые можно изменять, добиваясь максимального подобия синтезированного сигнала с исходным:

1) нестационарный фильтр;

2) возбуждающий сигнал;

3) процедура минимизации, основанная на восприятии.

Так как эта модель требует ча­стого обновления параметров для по­лучения хорошего совпадения с исход­ным сигналом, процедура анализа вы­полняется поблочно, т.е. входной рече­вой сигнал разбивается на блоки вы­борок. Длина анализируемых блоков (фреймов) и периодичность их обно­вления определяют скорость передачи (емкость) схемы кодирования. Алго­ритм работы AbS-LPC следующий:

1. Инициализировать LPC и то­нальный фильтры (нестационарные фильтры), т.е. установить уровень ну­ля или минимального случайного шу­ма;

2. Фрейм выборок речи заносится в буфер и на основании LPC-анализа вычисляется набор LPC-коэффициентов;

3. Используя вычисленные LPC-коэффициенты, формируется инверс­ный LPC-фильтр для вычисления пер­вого восстановленного после квантова­ния остатка. Если для поиска подхо­дящего тона используется «замкнутая петля», надобность в этом шаге отпа­дает.

4. Так как LPC фрейм обычно слишком велик для эффективного ана­лиза, при определении возбуждения фрейм разделяется на целое число подфреймов;

5. Для каждого подфрейма:

а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент мас­штабирования;

б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с помощью которого опре­деляется наилучшее вторичное возбу­ждение, т.е. такое, которое минимизи­рует разницу между синтезированной и исходной речью.

6. Окончательно синтезирован­ная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синтеза предыду­щего подфрейма.

7. Повторение шагов 2-6 для сле­дующего фрейма последовательности.

Таким образом, и на стороне коде­ра, и на стороне декодера синтезирует­ся речь, что необходимо для обновле­ния содержимого памяти нестационар­ных фильтров. В результате и кодер, и декодер имеют идентичное содержа­ние памяти. В противном случае для общей синхронности содержимое памя­ти пришлось бы передавать на деко­дер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и деко­дере, когда средства передачи несовер­шенны, например, в системах подвиж­ной радиосвязи, где очень высока доля ошибок.

Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связа­но с тем, что в действительности про­цедуры последовательны, т.е. сначала вычисляются параметры фильтра, ко­торые фиксируются, и только затем следует вычисление методом «анали­за через синтез» вторичного возбужде­ния. Хотя вторичное возбуждение вы­полняется по исходному сигналу, оно ограничено оптимальностью использу­емых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, по­этому ее обычно разбивают на после­довательные этапы.

Главное отличие классических во­кодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах воз­буждение разделяется на вокализован­ные (импульсное возбуждение) и не­вокализованные (возбуждение случай­ным шумом), что является первопри­чиной точности модели. В AbS-LPC такое деление не явно, и поэтому воз­буждающий сигнал может носить лю­бой характер — от псевдоимпульсного до шумоподобного, что позволяет син­тезировать речь более высокого каче­ства.

 



2019-07-04 362 Обсуждений (0)
Кодирование речи методами анализа через синтез (AbS) 0.00 из 5.00 0 оценок









Обсуждение в статье: Кодирование речи методами анализа через синтез (AbS)

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние...
Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (362)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.008 сек.)