Кодирование речи методами анализа через синтез (AbS)

2019-07-04

403

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

При классификации методов кодирования речи на скоростях 4,8... ...16 кбит/с выделяют две основные группы — методы анализа и синтеза (AaS — Analysis-and-Synthesis) и методы анализа через синтез (AbS – Analysis-by-Synthesis). Хотя такие схемы AaS, как RELP, АРС, АТС и SBC успешно работают на скоростях 9,6... 16 кбит/с, при скоростях ниже 9,6 кбит/с они не могут обеспечивать хорошее качество речи. Это объясняется двумя причинами: 1) кодируемая речь не анализируется на предмет эффективности, т.е. не производится коррекция искажений в восстановленной речи; 2) ошибки, накопленные в предыдущих фреймах, не учитываются в момент анализа текущего фрейма и беспрепятственно переходят в следующие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах используется процедура оптимизации типа «замкнутая петля» для нахождения возбуждающего сигнала, который при возбуждении моделирующего фильтра создает оптимальный речевой сигнал. Это позволяет схемам AbS более успешно работать на скоростях 4,8.. .9,6 кбит/с.

Методы AbS подходят не только для кодирования речи, но могут также использоваться для оценки и идентификации. Основная идея AbS такова. Во-первых, допускается, что сигнал можно исследовать и представить в какой-либо форме, например в виде временных или частотных доменов. Затем созданная модель сигнала подвергается оптимизации (подгонке), как показано на рис. 2.6.

Модель имеет несколько параметров, изменение которых приводит к изменению формы моделируемого сигнала. Для нахождения модели сигнала, которая имеет ту же форму, что и модель истинного сигнала, используют процедуры минимизации ошибки. Путем изменении параметров модели находят такой их набор, при котором синтезированный сигнал с минимальной погрешностью совпадает с реальным. Следовательно, когда достигнуто такое совпадение, параметры модели принимаются за параметры истинного сигнала.

Базовая структура системы кодирования AbS-LPC представлена на рис. 2.7. В этой модели есть три компонента, которые можно изменять, добиваясь максимального подобия синтезированного сигнала с исходным:

1) нестационарный фильтр;

2) возбуждающий сигнал;

3) процедура минимизации, основанная на восприятии.

Так как эта модель требует частого обновления параметров для получения хорошего совпадения с исходным сигналом, процедура анализа выполняется поблочно, т.е. входной речевой сигнал разбивается на блоки выборок. Длина анализируемых блоков (фреймов) и периодичность их обновления определяют скорость передачи (емкость) схемы кодирования. Алгоритм работы AbS-LPC следующий:

1. Инициализировать LPC и тональный фильтры (нестационарные фильтры), т.е. установить уровень нуля или минимального случайного шума;

2. Фрейм выборок речи заносится в буфер и на основании LPC-анализа вычисляется набор LPC-коэффициентов;

3. Используя вычисленные LPC-коэффициенты, формируется инверсный LPC-фильтр для вычисления первого восстановленного после квантования остатка. Если для поиска подходящего тона используется «замкнутая петля», надобность в этом шаге отпадает.

4. Так как LPC фрейм обычно слишком велик для эффективного анализа, при определении возбуждения фрейм разделяется на целое число подфреймов;

5. Для каждого подфрейма:

а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент масштабирования;

б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с помощью которого определяется наилучшее вторичное возбуждение, т.е. такое, которое минимизирует разницу между синтезированной и исходной речью.

6. Окончательно синтезированная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синтеза предыдущего подфрейма.

7. Повторение шагов 2-6 для следующего фрейма последовательности.

Таким образом, и на стороне кодера, и на стороне декодера синтезируется речь, что необходимо для обновления содержимого памяти нестационарных фильтров. В результате и кодер, и декодер имеют идентичное содержание памяти. В противном случае для общей синхронности содержимое памяти пришлось бы передавать на декодер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и декодере, когда средства передачи несовершенны, например, в системах подвижной радиосвязи, где очень высока доля ошибок.

Может показаться, что схема AbS-LPC не является полноценной схемой «анализа через синтез». Это связано с тем, что в действительности процедуры последовательны, т.е. сначала вычисляются параметры фильтра, которые фиксируются, и только затем следует вычисление методом «анализа через синтез» вторичного возбуждения. Хотя вторичное возбуждение выполняется по исходному сигналу, оно ограничено оптимальностью используемых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимизацию всех параметров. Эта процедура очень сложна, насыщена вычислениями, поэтому ее обычно разбивают на последовательные этапы.

Главное отличие классических вокодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах возбуждение разделяется на вокализованные (импульсное возбуждение) и невокализованные (возбуждение случайным шумом), что является первопричиной точности модели. В AbS-LPC такое деление не явно, и поэтому возбуждающий сигнал может носить любой характер — от псевдоимпульсного до шумоподобного, что позволяет синтезировать речь более высокого качества.

2019-07-04

403

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Обсуждение в статье: Кодирование речи методами анализа через синтез (AbS)

Обсуждений еще не было, будьте первым... ↓↓↓