Мегаобучалка Главная | О нас | Обратная связь


Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием.



2020-03-19 283 Обсуждений (0)
Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием. 0.00 из 5.00 0 оценок




2.1. Преобразование коэффициентов.

Основным набором передаваемых параметров в вокодере с ли­нейным предсказанием являются М коэффициентов фильтра с ха­рактеристикой A ( z ) для каждого анализируемого сегмента. Эти коэффициенты действительно были использованы учеными Итакура и Саито в вокодерной системе, построенной на основе метода макси­мального правдоподобия, где каждый параметр кодировался с помощью 9 бит. Исследователи Атал и Ханауэр обсуждали использование коэф­фициентов фильтра для передачи и отметили, что требуется не только относительно высокая точность (8—10 бит на коэффициент), но, кроме того, при линейной интерполяции параметров в приемнике не гарантируется устойчивость синтезатора. Вычисляя корни A ( z ) и передавая их, можно восстановить информацию о спектре сигнала, заключенную в A ( z ), используя в среднем 5 бит на параметр. Кроме того, поскольку корни соответствуют устойчи­вым синтезирующим фильтрам, при их линейной интерполяции га­рантируется устойчивость.

Было исследовано и много других преобразований коэффициен­тов фильтра. Наиболее важным преобразованием является расчет коэффициентов частной корреляции или коэффициентов отражения { km }. Они вычисляются непосредственно в автокорреляционном методе и могут быть получены рекурсивно с помощью процедуры пошагового по­нижения порядка, если используется ковариа­ционный метод. Необходимым и достаточным условием устойчивос­ти при этом является ограничение этих параметров единицей по модулю. Более того линейная интерполяция параметров устойчи­вых фильтров приводит в результате к устойчивым фильтрам.

Параметры { km } связаны с площадями сечений неоднородной акустической трубы { A т }. . В качестве параметров, удобных для передачи, используются как логарифм отношения функций площадей { ln ( A т / A т -1}, так и сами функции площадей А{ m }. Линейная интерполяция этих параметров приводит к устойчивым фильтрам.

Одним из преобразований, гарантирующих устойчивость синтезиру­ющего фильтра после интерполяции, основано на коэффициентах автокорреляции. При корреляционном методе анализ может быть разделен на вычисление коэффициентов автокорреляции в пере­датчике и решение автокорреляционных уравнений в приемнике. В ковариационном методе могут быть использованы процедуры по­шагового понижения и повышения порядка, , включая применение уравнения в процедуре пошагового по­вышения порядка получения коэффициентов автокорреляции { r (т)}. В приемнике решаются автокорреляционные уравнения, как если бы процедура была идентична автокорреляционному ме­тоду. Устойчивость синтезирующего фильтра, полученного с помо­щью интерполяции автокорреляционных коэффициентов, следует из того факта, что линейная интерполяция элементов двух поло­жительно определенных теплицевых матриц дает положительно оп­ределенную теплицеву матрицу. Такая гарантия устойчивости предлагает безошибочность вычислений, поскольку ошибки при вычислениях могут исказить свойство положительной определен­ности матриц.

К параметрам, гарантирующим устойчивость при их интерполя­ции между устойчивыми сегментами, относятся корни функции А( z ), параметры { km }, функции площади, отношения площадей, логарифм отношения площадей и автокорреляционные ко­эффициенты. Параметрами, для которых неустойчивость, обусловленная ошибками вычислений, может быть легко обна­ружена, являются корни полинома (для обеспечения ус­тойчивости их модули должны быть меньше единицы), параметры { km } (для устойчивости их модули также должны быть меньше единицы), функции площади и отношения площадей (для устой­чивости их значения должны быть положительными). Ошибки вы­числения логарифма отношения площадей не могут привести к не­устойчивости, поскольку экспоненциальность всегда обеспечивает положительные отношения площадей.

2.2. Кодирование и декодирование.

Для вокодеров, возбуждаемых квазипериодическим сигналом, передаваемые параметры представляют собой обычно преобра­зования сигнала основного тона Р, коэффициента усиления а и коэффициентов фильтра i}. На практике кодирование сигнала основного тона и коэффициента усиления обычно осуществляется по логарифмическому закону. Типичным является логарифмиче­ское кодирование сигнала основного тона на 5 или 6 бит и лога­рифмическое кодирование коэффициента усиления на 5 бит. Ос­новное внимание далее будет уделено коэффициентам отражения { ki ,}, представляющим собой преобразование от { ai }, и различ­ным нелинейным преобразованиям, поскольку их свойства недо­статочно известны.

В вокодерах с линейным предсказанием широко используются коэффициенты отражения (и такие параметры, как логарифм площадей). В автокорреляционном методе они легко получаются как часть результатов анализа, а в ковариационном методе — вычисляются с помощью процедуры пошагового понижения по­рядка. Необходимым и достаточным условием устойчивости син­тезирующего фильтра при этом является то, что значения моду­лей коэффициентов отражения должны быть меньше единицы. Поэтому линейная интерполяция коэффициентов отражения ус­тойчивых фильтров гарантирует устойчивость полученных в ре­зультате интерполяции фильтров.

Коэффициенты отражения имеют неразномерную спектраль­ную чувствительность, причем наибольшая чувствительность бу­дет, когда модуль коэффициента близок к единице. Это свойство было теоретически доказано Грэем и Маркелом. Они пока­зали, что в процедуре пошагового повышения порядка на т-м шаге изменение логарифмического спектра фильтра 1/ Am ( z ), вы­званное изменением km на Δkm , будет осциллировать (при измене­нии частоты от нуля до fJ 2) между значениями

ln[1+ Δkm /(1+km)] и ln[1- Δkm /(1-km)]

Таким образом, значения km , модули которых приближаются к единице, наиболее чувствительны к малым изменениям спектра. Неравномерная спектральная чувствительность была также под­робно изучена Висваназаном и Макхоллом.

Известно, что для многих вокализованных звуков первые ко­эффициенты отражения имеют асимметричное распределение (k1 почти равен — 1, а k2 близок к +1), а коэффициенты более высо­кого порядка имеют центрированное около нуля распределение, близкое к гауссовскому. Это было замечено эмпирически рядом исследователей. Аналитически (используя аппроксимацию) было показано, что такая асимметрия имеет место для k1и k2 в случае отсутствия предыскажения для устранения корреляции. Было также замечено, что при низких частотах дискретизации (10 кГц и меньше) величины коэффициентов отражения k з, k4… с высокой вероятностью меньше 0,7.

Линейное квантование коэффициентов отражения на отрезке [—1, 1] нецелесообразно, так как значения, близкие к единице, обычно характерны только для k1и k 2 . Поэтому следует приме­нять нелинейное квантование в силу неоднородной спектральной чувствительности. Использовалось несколько схем преобразова­ния и кодирования. Хаски и другие изучили многие типы преобразований и пришли к выводу, что наиболее эффективно логарифмическое кодирование отношений площадей, т. е.:

ln[1- km /(1+k)].

К такому же заключению пришли Висваназан и Макхолл на основании экспериментальной оценки спектральной чувствитель­ности коэффициентов отражения. Велч использовал моди­фицированный логарифм отношения площадей ln[F- km/(F+ km)]со значениями F более единицы из-за того, что для коэф­фициентов отражения, близких к единице, квантование логариф­ма отношений площадей может стать настолько точным, что пре­высит точность исходных данных.

Для облегчения процедуры синтеза при использовании нор­мализованной структуры фильтра Маркел и Грэй предло­жили кодирование коэффициентов отражения по закону аркси­нуса θ m = sin -1 ( km ). При этом достигается большая точность квантования коэффициентов отражения, близких к единице, и та­кое кодирование является единственным преобразованием, осу­ществляющим равномерное распределение углов для непосред­ственного поиска параметров фильтра в приемнике по тригоно­метрической таблице (такие таблицы в виде стандартных про­грамм имеются в памяти ПЗУ высокоскоростных процессорных систем). Несмотря на то, что такое кодирование не соответству­ет усредненным кривым чувствительности Висваназана и Макхолла так же, как и кодированию логарифма отношения площадей, тем не менее оно приемлемо и более эффективно, чем линейное квантование коэффициентов отражения. Кодирование по закону арксинуса встречает такую же трудность, связанную с чрезмерной точностью квантования при значениях модулей, близ­ких к единице, как и кодирование логарифма площади.

Некоторые подходы, применяемые для сокращения числа передаваемых двоичных единиц, относительно просты, в то вре­мя как другие являются более сложными. Маркел и Грэй устранили смещение k 1 и k 2 (путем добавления и вычитания 0,3 соответственно), а затем равномерно квантовали несмещенные результаты для всех коэффициентов отражения от —0,7 до + 0,7, используя меньшее число бит для коэффициентов отражения высокого порядка. Итакура и Саито применили дина­мическое программирование для распределения двоичных еди­ниц, предназначенных для кодирования коэффициентов отраже­ния. Было обнаружено, что предыскажение речевого сигнала зна­чительно сокращает разницу между распределением двоичных единиц при динамическом программировании и равномерном рас­пределении. Макхолл и другие использовали метод кодиро­вания Хаффмана применительно  к логарифму отношения функ­ции площади для повышения эффективности представления. Эта процедура имеет то преимущество, что используется меньшее число двоичных единиц без какого-либо ухудшения точности представления. Мак-Кендлес использовал метод равномерного кодирова­ния площадей, основанный на гистограммах, полученных стати­стическим путем. При этом методе требуется отличное от других (но эффективное) кодирование каждого отдельного коэффици­ента отражения. Специфический вид такого кодирования зависит от статистических средних значений, полученных путем обработ­ки большого числа сегментов данных, и зависит от таких пара­метров системы, как частота дискретизации, характеристики предыскажающего фильтра и типа записывающей аппаратуры.

Маловероятно, что можно определить единственную опти­мальную схему кодирования-декодирования в том смысле, что получится наилучшее субъективное качество восприятия синтези­рованной речи при самой низкой скорости передачи. Когда кри­терий качества основывается на восприятии, выбор схемы коди­рования-декодирования зависит от разных факторов и всегда имеется различие в мнениях слушателей.

При моделировании неквантованные параметры (при исполь­зовании системы счисления с плавающей запятой или целых чи­сел с максимальной точностью) обычно преобразуются в группу целых чисел {0, 1, ..., 2β—1}, где β — число бит, используемых для представления параметра. Такое представление соответству­ет преобразованию множества значений в одно и может быть эф­фективно выполнено с помощью таблицы, например, на основе двоичного поиска. Эти передаваемые параметры однозначно со­ответствуют декодируемым параметрам и могут быть, следова­тельно, использованы в приемнике для табличного декодирования с помощью таблицы.

Специальные примеры передачи речи с минимальной скоро­стью на основе различных преобразований параметров будут представлены ниже при рассмотрении вокодерных систем и мо­делирования.

 

2.3. Передача параметров с переменной скоростью.

Большая часть разговорной речи содержит паузы. Кроме то­го информация, необходимая для точного представления исходного речевого сигнала, существенно изменяется во времени. На­пример, при анализе переходов между вокализованными и невокализованными звуками их необходимо разбить на сегменты ана­лиза малой длительности (например, fr=100 Гц), иначе такое слово, как pea, при синтезе может звучать как fee. Однако для протяжных звуков, таких, как в сочетании ahh, квазистационар­ный речевой сигнал может быть удовлетворительно представлен при более низкой частоте анализа. Если учесть паузы и перемен­ный во времени характер создания информации в системах с ком­мутацией сообщений, то скорость передачи параметров речевого сигнала в этом случае можно существенно снизить без потери качества по сравнению со скоростью передачи в системах с коммутацией каналов (на­пример, в телефонной сети).

Для того чтобы использовать изменяющиеся во времени свой­ства речевого сигнала для снижения скорости передачи, необхо­димо располагать некоторой мерой этого изменения. С ее помо­щью можно было бы сравнивать спектры или параметры на каж­дом новом сегменте анализа с аналогичными характеристиками в уже обработанных сегментах. Если эта мера превышает задан­ный порог, то отсюда следует, что характеристики сигнала пре­терпевают достаточно большое изменение, которое требует пере­дачи нового набора параметров. Поскольку наибольший процент передаваемых двоичных единиц приходится на параметры, не­сущие информацию о спектре (например, коэффициенты отраже­ния или логарифм отношения площадей), то основное внимание должно быть обращено на них.

Можно предложить большое число возможных мер, каждая из которых основана на некоторых характеристиках, описываю­щих анализируемый сегмент. Такие меры, например, могут осно­вываться на средних значениях, суммах абсолютных разностей или квадратов параметров. Параметрами могут являться коэффи­циенты отражения, коэффициенты автокорреляции (возможно нормированные для устранения влияния фактора усиления), ко­эффициенты обратного фильтра или кепстральные коэффициенты.

 

2.4. Возбуждение синтезатора и выбор коэффициента усиления.

Атал и Ханауэр предложили способ согласования энер­гии синтезированной речи в пределах периода основного тона с соответствующей энергией речевого сигнала с помощью переда­чи энергии входного сигнала, измеренной за один период ОТ. Хотя они ограничились рассмотрением ковариационного метода без предыскажающей фильтрации, однако этот способ применим как в ковариационном, так и в автокорреляционном методах и легко может быть модифицирован для случая применения преды­скажения и прямой формы синтезирующего фильтра.

Способ основан на том, что каждый отсчет синтезированной речи имеет две основные составляющие: 1). затухающие комплек­сные экспоненты { q ( n )} предшествующего синтезированного пе­риода ОТ и 2). выходной сигнал синтезатора {и(п)}, являющийся откликом на возбуждающую последовательность {е(п)}, без уче­та влияния предшествующего сегмента.

В нашем случае источником возбуждения является либо по­следовательность периодических единичных отсчетов (следую­щий за нулевыми отсчетами) при синтезе вокализованных звуков, либо последовательность выходных отсчетов генератора псевдо­случайных чисел при синтезе невокализованных звуков (период ОТ для невокализованных звуков считается постоянным). Если ввести коэффициент усиления g , то полный отклик синтезатора { s ( n )} для нового сегмента определяется выражением

                              s ( n ) = q ( n ) + gu ( n ).                    

Если использовать черту для обозначения суммы N отсчетов, например,

                                                          __  N-1

u(n) = Σ u(n)

n=0

 

то требование равенства энергий исходного и синтезируемого сигналов запишется в следующем виде:

                  ____ _____     ______________ ___________ ______________ _____

             s2(n)= s2(n) = [q(n)+gu(n)]2 =  g2u2(n) + 2gq(n)u(n) + q2(n)      

Это уравнение второго порядка может быть решено относитель­но g . Приведем алгоритм вычисления отклика синтезирующего фильтра прямой формы.

1. Вычислить выходной сигнал фильтра q ( n ) при n=0, 1, ..., М—1 в отсутствие возбуждения (используя только данные из памяти о предшествующем периоде) и без обновления коэффици­ентов фильтра.

2. Вычислить выходной сигнал фильтра и(п) при n=0, 1, 1, ..., N—1 по сигналу возбуждения {е(п)}, а память фильтра обнулить.

3. Вычислить коэффициенты уравнения второго порядка отно­сительно g и решить его:

               ___________ ______________ _____ _____

                             g2u2(n) + 2gq(n)u(n) + q2(n) – s2(n) = 0                

4.       Предполагая, что g действительно и неотрицательно, опре­делить выходной сигнал синтезатора в соответствии с выраже­нием

                                      s(n) = q(n) + gu(n) при n = 0, 1, .... N—1.            

5.       Записать в память фильтра прямой формы значения

s ( N — 1), s(N—2),..., s ( N — M ).

Вернемся к третьему шагу. Если s 2 ( n )> q 2 ( n ), то корни квад­ратного уравнения будут иметь противоположные знаки и, сле­довательно, всегда будет положительный действительный корень. Это условие выполняется, когда истинная энергия больше, чем энергия затухающего переходного процесса. Если это условие не удовлетворяется, что может случиться с сигналом, амплитуда ко­торого уменьшается, то необходимо, чтобы

___________ _____

q(n)u(n) / u2(n) было отрицательным и, кроме того,

При отсутствии действительных положительных корней мо­дель не имеет физического смысла. Если решения не существует, то Атал и Ханауэр предложили устанавливать g =0. Такая про­цедура требует моделирования работы синтезирующего фильтра дважды, в дополнение к трем суммам по N отсчетов и решению квадратного уравнения. Передаваемый коэффициент усиления а определяется по формуле a 2 = s 2 ( n ). Алгоритм, описанный выше, затем полностью реализуется в приемнике.

Такой подход можно распространить и на другие структуры синтезирующих фильтров. При этом необходимо осуществлять дополнительные вычисления при преобразовании значений задер­жанной синтезированной речи в сигналы, содержащиеся в эле­ментах памяти фильтров. Изменение алгоритма при использова­нии предыскажения заключается в замене коэффициентов A ( z ) коэффициентами A ( z )—(1—μ z -1 ), где  (1— μ z -1 ) определяет ха­рактеристику предыскажающего фильтра.

Несколько более простой (и менее точный) метод заключает­ся в возбуждении синтезирующего фильтра входной последова­тельностью {е(п)}, чтобы вычислить и(п), где и(п) теперь содер­жит отклик как от предшествующего сегмента, так и от текуще­го сигнала возбуждения

Поскольку в указанных методах непосредственно согласуется энергия сигналов на входе и выходе, то можно ожидать точного согласования огибающих исходной и синтезированной речи. Од­нако необходимо тщательно следить за тем, чтобы величина раз­рывов непрерывности была минимальна, поскольку на коэффи­циенты усиления в конце одного периода ОТ и начале следующе­го не накладывается никаких энергетических ограничений, кроме косвенных.

 

Глава 3: Виды липредеров на примере устройств с низкой скоростью передачи информации..

Одним из возможных и наиболее важных применений линей­ного предсказания является низкоскоростная (2400—3600 бит/с) надежная передача речи по телефонным каналам. Так как одноканальная высококачественная передача речи требует скорости от 40 000 до 200 000 бит/с, очевидно, что некоторые характерис­тики речи должны быть учтены в модели, в то время как другие могут быть исключены с целью уменьшения скорости передачи информации более чем на порядок. Важно понимать все обстоя­тельства, связанные с этим соображением, чтобы отчетливо пред­ставлять возможности и ограничения вокодерных систем с линей­ными предсказаниями. Некоторые из этих моментов далее будут рассмотрены.

На каждом сегменте необходимо максимально точно оцени­вать сигнал ОТ (отсутствие вокализованности означает, что Р=0). Эта оценка представляет собой единственный параметр, который обеспечивает наибольшее снижение скорости передачи информации. Если она достаточно точна, то натуральность зву­чания синтезированной речи снижается незначительно. Однако точное оценивание предполагает, что посторонние шумы должны быть сведены к минимуму. Музыка, лай собак или внятные поме­хи от разговоров других абонентов приведут к значительному ухудшению точности оценивания сигнала ОТ. Кроме того, диа­пазон изменения частоты основного тона оказывается ограничен­ным. Его величина зависит от сложности алгоритма выделе­ния ОТ.

Обычно в процессе выделения ОТ каждый сегмент классифи­цируется как полностью вокализованный (тон V=1) или как полностью невокализованный шум (V=0). Очевидно, существу­ют звуки, которые следовало бы рассматривать как промежуточ­ные, например /v/ в слове thieves. Применение бинарного прави­ла классификации обусловлено практическими соображениями. Трудно автоматически установить правильное соотношение меж­ду периодической и шумовой компонентами, да и качество синте­за при этом часто ухудшается ненамного.

Если не применяется схема с переменной скоростью передачи информации, при которой учитываются паузы и другие свойства речи, то скорость не может быть уменьшена ниже 1200 — 1400 бит/с. Системы с постоянной скоростью передачи (с синхронной передачей), описываемые в этом параграфе, могут сохранять высокое качество синтеза (при отсутствии операций кодирова­ния, квантования или вычислений с конечной длиной слова) при­близительно до 3300 бит/с, обеспечивая, по существу, незначи­тельное ухудшение качества восприятия. Приблизительно от 1400 до 3300 бит/с ухудшение качества может изменяться от незначи­тельного до существенного, в зависимости от отдельных звуков речи и характерных особенностей говорящего. Ниже 1400 бит/с качество речи значительно ухудшается.

В этой части представлены примеры фраз, переданных по вокодерным системам. Существуют различные виды ЛПС вокодеров – вокодеры на основе метода максимального правдоподобия и частных корреляции, вокодеры на основе автокорелляционного метода и вокодеры на основе ковариационного метода. Для понимания ниже разберем более подробно последние.

 

3.1. Липредеры на основе ковариационного метода.

Одними из видов липредеров с низкой скоростью передачи являются липредеры на основе ковариационного метода. Атал и Ханауэр в работах и впервые представили результаты анализа-синтеза на основе ковариационного метода линейного предсказания. К статье была приложена звукозапись, чтобы продемонстрировать качество синтеза, полученное при раз­личных информационных скоростях. Исходная речь была записа­на при большом отношении сигнал/шум, пропущена через НЧ фильтр с частотой среза 5 кГц, а затем дискретизирована с час­тотой f= 10 кГц. Сегмент анализа устанавливался равным одно­му периоду Р основного тона для вокализованных участков и ' 10 мс для невокализованных. Коэффициенты предсказания {а*} рассчитывались на основе ковариационного метода, причем N = Pfs - Коэффициент усиления а вычислялся с помощью первой из процедур, описанных выше, так что энергия речи на каждом синтезируемом сегменте согласовывалась с энергией сиг­нала на соответствующем анализируемом сегменте. Выделение ОТ выполнялось на основе автокорреляционного анализа сиг­нала, полученного путем фильтрации исходной речи и возведения в куб для подчеркивания участков речевого колебания с большой амплитудой .

Для проверки на устойчивость фильтра с характеристикой 1/ A ( z ) на анализируемом сегменте применялась процедура по­шагового понижения порядка. Если фильтр неустойчив, то корни функции получались по программе нахождения корней полинома. Пусть функции

                                                                                                  М

A(z) = П (1- zm*z-1)

                                                                                                  m=1

опиcывают полиномиальную характеристику фильтра. Если корни zm лежат вне единичной окружности, т. е. | zm |>1, то заменим zm на z * m /| zm |2. Такая замена гарантирует, что форма спектра ос­танется неизменной, хотя исходный критерий минимизации уже не удовлетворяется.

Полином, все корни которого лежат внутри единичной окруж­ности, может быть тогда составлен рекурсивно

A’m(z) = A’m-1(z)*(1-zmz-1)

при m=1, 2, ..., М, причем AM '( z ) заменяет полином A ( z ). Отме­тим, что корень обычно оказывается комплексным. Полученные в результате такого преобразования коэффициентов фильтра пара­метры кодировались и квантовались двумя различными способа­ми: (1) частота и ширина полос корней zm на сегменте в целом кодировались 60 двоичными единицами (в предположении, что М=\2)\ 2) площади акустической трубы Am кодиро­вались 60 двоичными единицами. Оба этих способа гарантируют устойчивость фильтра синтезатора, даже если применяется ли­нейная интерполяция. Другими передаваемыми параметрами бы­ли период Р основного тона, признак вокализованности «тон-шум» ( V / UV ) и коэффициент усиления, которые кодировались соответственно шестью, одной и пятью двоичными единицами. По­этому скорость передачи составляла Br = fr *(6+1+5+60) =72*fr,.. Так как использовались частоты сегментов, равные 100, 67 и 33 Гц, то результирующие скорости составляли 7200, 4800 и 2400 бит/с соответственно.

Для синтеза речи применялся фильтр прямой формы, управ­ляемый синхронно с периодом ОТ. Функция возбуждения пред­ставляла собой выходной сигнал генератора в виде единичных отсчетов в начале каждого периода, умноженных на коэффици­ент усиления о, или равномерно распределенных псевдослучай­ных отсчетов с нулевым средним значением и единичной дис­персией. По признаку вокализованности V («тон-шум») опреде­лялось, какой вид функции возбуждения применять. Поскольку параметры передаются с постоянной частотой fr , то для осущест­вления синтеза синхронно с периодом ОТ использовалась линей­ная интерполяция.

Для того чтобы гарантировать устойчивость, последователь­ность { ai } пересчитывалась в первые М+1 отсчеты автокорре­ляционной последовательности { r (п)}. После интерполяции по­следовательность { r (п)} пересчитывалась обратно в интерполированный ряд параметров {ai}, а затем последний применялся для синтеза в фильтре прямой формы.

Субъективно оцениваемое качество синтезированной речи бы­ло очень близко к качеству исходной речи. Некоторые факторы, касающиеся качества синтезированной речи, полученной в этой системе, будут рассмотрены далее. При построении этой системы преследовалась цель получения наивысшего возможного качест­ва при заданной информационной скорости без учета сложности вычислений. Для проведения анализа с длительностью временно­го окна, зависящей от периода ОТ, требуется очень точно опре­делять этот период. Как отмечал Шредер, частота воз­никновения ошибок, равная 1%, при выделении ОТ может быть недопустимой. Используемый алгоритм анализа периода ОТ тре­бует много логических операций и обработки четырех или пяти задержанных в буферной памяти сегментов для определения того, классифицировать сегмент как вокализованный или как невокализованный и т. д. Чтобы достигнуть такого же качества синтеза, как в исходной записи, необходимо обеспечить большое отношение сигнал/шум (45—50 дБ). Более того, результаты от­части зависят от того, насколько хорошо речь описывается ком­плексно-экспоненциальной моделью в пределах одного периода ОТ. Следует отметить, что все операции выполнялись в режиме с плавающей запятой с полной точностью.

При реализации такой системы можно не получить ожидае­мых хороших результатов, если рассчитывать на то, что прове­дение вычислительных операций с малыми ошибками устранит потери качества восприятия. В настоящее время не существует прямых процедур (в тем смысле, что алгоритм может быть пред­ставлен последовательностью алгебраических соотношений) для реализации систем с высоким качеством и низкими скоростями. Например, автокорреляционный анализ является прямым в том смысле, что если при вычислении обеспечивается достаточная точность, то устойчивость фильтра с характеристикой 1/ A ( z ) те­оретически гарантируется. Но, к сожалению, качество синтеза при этом часто ниже, чем при ковариационном методе при иде­альных условиях (например, анализ синхронный с ОТ, большое отношение сигнал/шум). С другой стороны, ковариационный ме­тод требует проведения дополнительных операций для обеспече­ния устойчивости синтезирующих фильтров (проверка корней по­линомов и смещение корней внутрь единичной окружности, пос­ле которого критерий минимума ошибки предсказаний уже не удовлетворяется).

Вокодерная система на основе линейного предсказания, ис­пользующая такой принцип анализа-синтеза, была исследована Хаски и другими. При этом была поставлена задача опти­мизировать систему с точки зрения качества ее работы и точно­сти реализации для самых разных дикторов при скоростях пере­дачи информации 3600 и 7200 бит/с. В этом исследовании речь была ограничена полосой до 4000 Гц и дискретизировалась с частотой fs = 8000 Гц. Кроме того, длительность сегмента анализа была фиксирована. С целью определения требуемого числа коэф­фициентов фильтра М и длины сегмента анализа N было обра­ботано шесть различных предложений от разных дикторов.

Из набора возможных значений длины сегмента N=64, 128 и 256 отсчетов был выбран сегмент с N= 128 (16 мс). Выбор более короткого интервала приводил к неустойчивости синтезирующего фильтра, в то время как при сегменте большей длительности по­являлось чрезмерное сглаживание спектра. Порядок предсказа­теля М был выбран равным 12 при частоте дискретизации fs=8 кГц для обеспечения хоро­шего качества синтеза в различных условиях. При этом не на­блюдалось существенного улучшения в синтезе при частоте сег­ментов выше 200 Гц и качество речи плавно снижалось при уменьшении частоты анализа от 200 до 30 Гц.

С точки зрения объема вычислений было целесообразно не определять корни полиномов. Вначале характеристика фильтра A ( z ) пересчитывалась в характеристику соответствующей акусти­ческой трубы. Необходимым и достаточным условием устойчивости фильтра l / A ( z ) является положительность Затем вычисляется новая функция площадей. Эта процедура продолжается до тех пор, пока модифициро­ванный полином не будет   иметь все функции пло­щадей положительными. Кроме того, была установлена необхо­димость того, чтобы ширина каждой полосы была больше 30 Гц. Это требование удовлетворяется, если сжатие единичной окруж­ности в 1,01 раза не приводит к неустойчивым функциям площа­дей.

Значительные усилия были приложены для определения эф­фективного метода кодирования функций площадей. Было уста­новлено, что наиболее эффективным законом кодирования явля­ется логарифмическое кодирование отношений площадей. Было найдено, что наилучшим выбором распределения бит при скоро­сти передачи данных 3600 бит/с и частоте анализа fr=50 Гц яв­ляется следующее:

 

отношение площадей 1—2      6 бит;

           —»—         3—8       5 бит;

           —»—         9—12       4 бит;

ОТ и «тон-шум»                    8 бит;

коэффициент усиления        5 бит.

 

Для получения системы со скоростью передачи 7200 бит/с было ре­шено просто удвоить частоту анализа, чтобы получить наилучшие результаты.

Качество восприятия сигнала в системе со скоростью передачи 3600 бит/с оценивалось при помощи сбора мнений слушателей. Бы­ло обработано 30 предложений (десять дикторов произносили по три предложения каждый). Слушатели (30) оценивали эти пред­ложения (каждый 2 раза) по тексту, содержащему 60 пунктов, при использовании следующих категорий: отлично, хорошо, удовлет­ворительно, плохо, очень плохо. Слушатели были «настроены» на экспериментальные категории с помощью прослушивания речи стандартного телефонного канала и речи, полученной в полосном вокодере со скоростью 3600 бит/с. Результаты показывают, что ка­чество, полученное при моделировании системы со скоростью пе­редачи 3600 бит/с, находится между удовлетворительным и хоро­шим. Имеются основания полагать, что эти оценки чувствительны к дикторам и, в меньшей степени, к тексту. Обычно мужские голо­са получают более высокие оценки, чем женские, но существуют и исключения из этого правила. Для большинства дикторов и тек­стов система со скоростью 3600 бит/с обеспечивает улучшение ка­чества по сравнению с предшествующими полосными вокодерами.

Была проведена также сравнительная проверка для того, чтобы оценить разницу в качестве между системами со скоростями 3600 и 7200 бит/с. Тридцать предложений, использовавшихся при про­верке по установлению категорий, были обработаны в модели во­кодера со скоростью 7200 бит/с, в которой длительность сегмента была равна 10 мс, причем на сегмент отводилось по 72 двоичных единицы. Предложения для обеих систем (с 3600 и 7200 бит/с) бы­ли объединены в тест, включающий 30 разделов.

Результаты для всех дикторов и предложений показали, что в 53% случаев предпочтение было отдано системе с более высокой скоростью передачи данных. Когда же рассматривались только дикторы женщины, в результате получили цифру 58%. Этот резуль­тат объясняется ухудшением интерполяции коротких периодов ОТ в сигнале, соответствующем женскому голосу при сегменте анали­за длительностью 20 мс. Такое небольшое предпочтение показыва­ет, что нет существенного роста в субъективном качестве при уве­личении скорости передачи свыше 3600 бит/с.

Исследование соображений по реализации вокодеров привели кследующей оценке числа операций на сегмент: 4200 операций для передатчика и 5000 операций для приемника (всего 9200 опе­раций на сегмент или, при скорости передачи 3600 бит/с, 461 000 операций в секунду). Предполагалось, что для выполнения всех этих операций необходим процессор, работающий в режиме с пла­вающей запятой.

Уэлч и другие, основываясь на системе Атала — Ханауэра и исследовании Хаски и других, ввели некоторые модифи­кации, которые позволили реализовать систему при использовании быстродействующего цифрового процессора.


 



2020-03-19 283 Обсуждений (0)
Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием. 0.00 из 5.00 0 оценок









Обсуждение в статье: Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе...
Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (283)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.038 сек.)