Мегаобучалка Главная | О нас | Обратная связь


Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием.



2020-03-19 620 Обсуждений (0)
Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием. 0.00 из 5.00 0 оценок




РЕФЕРАТ

 

 

Дисциплина: «Информационная безопасность и защита информации»

 

Тема: «Вокодеры с линейным предсказанием»

 

 

          Группа: КТ-515             

 

                                        Студент:___________ /Грачев А.А. /

                                             

 

Преподаватель: доц. каф. 402

 

                          _________ /Большов О.А./

 

Москва, 2010 г.


Оглавление

                                                                                                                                           

Перечень условных обозначений…………………………………………………………….. 3

В ведение………………………………………………………………………………………. 5

 

Глава 1. Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием ………………………………………………………………………………... 6

1.1. Физическое обоснование…………………………………...…………………………... 7

1.2. Вокодеры с линейным предсказанием (липредеры)..…………………………………10

1.3. Принцип метода линейного предсказания..…………………………………………... 12

 

Глава 2: Способы преобразования информации в вокодерах с линейным предсказанием …….………………………………………………………………………….  15

2.1. Преобразование коэффициентов…….………………………………………………… 15

2.2. Кодирование и декодирование………………………………………………………. 16

2.3. Передача параметров с переменной скоростью .........……….……………………….. 19

2.4. Возбуждение синтезатора и выбор коэффициента усиления ……………………….. 20

 

Глава 3: Виды липредеров на примере устройств с низкой скоростью передачи информации…………………….…………………………………………………………….. 23

3.1. Липредеры на основе ковариационного метода ……………..………………………. 24

 

Глава 4: Методы анализа речи на основе использования вокодеров с линейным предсказанием ……………………………………………………………………………….. 29

 

Глава 5: Кодеки………………………………………………………………………………. 34

  

Глава 6: Вокодеры в современности……....………………………………………………  41

Заключение………………………………………………………………………………...... 44

Список используемой литературы……………………………………………………...... 45


Перечень основных условных обозначений.

АДИКМ – адаптивно-дифференциальная импульсно-кодовая модуляция;

ВОТ – выделитель основного тона;

ГОТ – генератор основного тона;

ГШ – генератор шума;

ДИКМ – дифференциальная импульсно-кодовая модуляция;

ИКМ – импульсно-кодовая модуляция;

КС – канал связи;

МККТТ – Международный консультационный комитет по телефонии и телеграфии;

МСЭ – Международный союз электросвязи;

НЧ – низко-частотный;

ОТ – основной тон;

ПЗУ – постоянное запоминающее устройство;

Т-Ш – «тон-шум»;

УО – устройство объединения сигналов;

УР – устройство разделения сигналов;

ФНЧ– фильтр низких частот;

ЦАП – цифро-аналоговый преобразователь;;

ЦПОС – цифровые процессоры обработки сигналов;

ACELP – англ. Algebraic Code Excited Linear Prediction - возбуждение от алгебраического кода;

ADPCM – aнгл. Adaptive differential pulse -code modulation - адаптивно-дифференциальная импульсно-кодовая модуляция;

CELP –англ., Code Excited Linear Predictive – возбуждение от кода;

CS-ACELP - Conjugate Structure - Algebraic Code Excited Linear Prediction - сопряженная структура с управляемым алгебраическим кодом линейным предсказанием;

DSP - Digital Signal Processor - специализированные цифровые сигнальные процессоры;

GSM - (от названия группы Groupe Sp é cial Mobile, позже переименован в Global System for Mobile Communications) (русск. СПС-900) — глобальный цифровой стандарт для  мобильной сотовой связи;

ITU – англ. International Telecommunication Union – Международный союз электросвязи;

LD-CELP – англ. Low Delay - Code Excited Linear Prediction - линейное предсказание с кодовым возбуждением и низкой задержкой;

LPC – англ., Linear Predictive Coding –  кодирование с линейным предсказанием;

LSF - linear spectral frequency - линейные спектральные частоты;

MIPS - Million Instructions Per Second - миллион операций в секунду;

MOS – aнгл. Mean Opinion Score - средняя субъективная оценка;

MPELP –  англ., Multi Pulse Excited Linear Predictive – многоимпульсное возбуждение;

MP-MLQ - Multy-Pulse - Multy Level Quantization - множественное импульсное; 

PCM – aнгл. Pulse Code Modulation – импульсная кодовая модуляция;

QDU - Quantization Distortion Units - параметры ухудшения качества сигнала при квантовании;

RELP – англ., Residual Excited Linear Predictive – возбуждение от остатка предвидения;

VAD - Voice Activity Detector - детектор активности источника речевого сигнала

многоуровневое квантование.

 

 


 

Введение

Вокодеры – это системы параметрического кодирования речи, широко применяемые в современной цифровой телефонной связи, в том числе – Internet-телефонии. Причиной тому – высокая степень сжатия информации, а также хорошая согласованность вокодеров с системами канального кодирования и шифрования, в результате чего сравнительно легко обеспечивается высокая защищенность систем связи от помех и утечки информации. Недостатком вокодеров является невысокое качество речи, поэтому они применяются главным образом в военной связи, где главное – не натуральность речи, а ее высокая степень сжатия и хорошая разборчивость. В коммерческих системах связи, где ценится натуральность звучания речи, обычно применяют полувокодеры (гибридные вокодеры), сочетающие принципы непараметрического и параметрического методов кодирования. Иные области применения вокодеров – автоматизированная стенография, озвучивание текста, человеко-машинный диалог, биометрия (идентификация диктора).

Знакомясь с современным состоянием вокодерных технологий по литературным источникам и ресурсам Internet, можно выделить следующие области примениения вокодеров:

· программные и программно-аппаратные разработки вокодеров для промышленного, военного и бытового применения;

· программные экспериментальные вокодеры;

· другие перспективные и интересные направления.

 


 

Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием.

Устройства для параметрического частотного сжатия речи получили название вокодеров.

Вокодер (от англ. voice - голос и coder – кодировщик голоса) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала.

Компандирование - способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном - восстановление первоначального объёма сигнала путём соответствующего расширения. Компандирование включает преобразования: компрессию (сжатие) и декомпрессию (восстановление) речевого сигнала.

 Общий принцип действия вокодера любой системы поясняется на рис. 1.

Анализатор А - анализатор спектра Т-Ш - выделитель сигнала тон-шум ВОТ - выделитель основного тона УО - устройство объедин. сигналов   КС - канал связи   Синтезатор УР - устройство разъед. сигналов С - синтезатор спектра П - переключатель вида спектра ГОТ - генератор основного тона ГШ - генератор шума

 

Рис. 1. Обобщенная блок-схема вокодера

Главными частями вокодерного тракта является анализатор, который осуществляющий выделение параметров речевого сигнала, система передачи, обеспечивающая прохождение информации об этих параметрах через канал связи в узкой полосе частот, и синтезатор, восстанавливающий первообразный речевой сигнал.

Анализатор вокодера состоит из устройства для выделения параметров речевого сигнала A1,A2,...,Ak и схемы выделения основного тона(тон(F0) или шум).

1.1. Физическое обоснование.

Работа вокодера (voice coder) основана на анализе характерных особенностей человеческой речи. На рис. 2 показаны условно частотные характеристики речи как функция от времени.


Рис. 2. Пример распределения энергии в частотных диапазонах

На рисунке изображены частотные полосы (от 0 до 1 КГц, от 1 КГц до 2 КГц и т. д.) и распределение энергии по ним при произнесении фразы.

Как видно из рисунка, энергия распределяется во времени только в некоторых частотных диапазонах и различается по величине. Отдельные пики энергии, возникающие в одном частотном диапазоне, называются фонемами.

Эта картина может изменяться в больших диапазонах, в зависимости от тембра голоса и особенностей произношения, но нам сейчас важно рассмотреть общие закономерности построения. На рисунке видно, что буквы отличаются не только частотным диапазоном, но и структурой. Для каждого звука характерны пики (резонансы) энергии в определенных частотных диапазонах и провалы в других. Частоты, на которых в данный момент возникают комбинации пиков (фонем), называются "частотами формант" или просто "формантами". Гласные и звонкие согласные звуки речи содержат обычно от трех до четырех формант. Эти свойства и иллюстрируются рис. 2.

Изображенная "спектрограмма" представляет собой распределение энергии речи в виде функции времени и частоты. Горизонтальная ось представляет время, вертикальная — частоту, уровень энергии условно показан частью синусоиды. Периоды между сменами формант составляют от 10 до 30 мс. Изучение образцов речи показало, что в русском языке содержится 42 фонемы: это 6 гласных звуков и остальные согласные. Чтобы закодировать их номера, достаточно 6 битов.

Человек в среднем произносит в секунду 10 звуков. То есть от центральной нервной системы к речевому аппарату сигналы передаются со скоростью 10 [log2±2] = 60 бит/c. Это вычисление порождает иллюзию, что речь имеет небольшой объем информации и может быть передана с небольшой скоростью. Однако если рассмотреть подробнее, как образуется звук, то можно обнаружить, что при передаче речи требуется передать больше информации. При разговоре грудная клетка сжимается и расширяется, поток воздуха проходит через трахею и гортань в полости глотки, рта и носа. Голосовой тракт простирается от голосовой щели (отверстие между голосовыми складками гортани) до губ и в процессе речи его форма меняется. Если произносятся звонкие звуки (гласные, носовые, звонкие согласные), называемые также вокализованными (voiced), голосовые складки в гортани смыкаются и размыкаются с частотой, которая называется частотой основного тона (pitch). Получается последовательность импульсов воздушного потока, которые возбуждают полости голосового тракта. В процессе разговора человек меняет геометрические размеры этих полостей, соответственно меняются и резонаторные частоты, "форманты".

При произнесении глухих невокализированных (unvoiced) звуков голосовые связки расслаблены. Проходя по суженному голосовому тракту, воздух создает турбулентный поток (завихрение), т.е. в полости рта и носа возбуждаются шумоподобные сигналы. Взрывные (смычные, stop) звуки получаются путем кратковременного выхлопа — полного перекрытия речевого тракта, нагнетания давления и внезапного открытия тракта. Взрывные звуки бывают звонкие (б, д, г) и глухие (п, т, к), т.е. могут образовываться с участием голосовых складок и без них. Таким образом, в терминах спектра сигналов, когда человек говорит, он производит спектрально­временную модуляцию широкополосного сигнала, генерируемого голосовыми складками и представляющего своего рода несущую. Полезная информация содержится только в интонации (изменении частоты основного тона) и в смене спектра с тонального на шумовой и наоборот.

Линейная модель речеобразования представляет речь как систему, состоящую из генератора возбуждения (генераторная функция) и линейной системы с медленно изменяющимися параметрами (фильтровая функция), которая им возбуждается. В такой модели не учитывается взаимное влияние голосовой щели и голосового тракта. Это не соответствует действительности, зато сильно упрощает анализ и синтез. Для экономичной передачи и хранения речи надо определить параметры генераторной и фильтровой функций. В генераторной функции изменяется частота и амплитуда основного тона (высота и громкость голоса) и происходит смена вида функции (основной тон или шум). У фильтровой функции происходит постоянное изменение коэффициента передачи, проявляющееся в изменении огибающей спектра.

Эта модель представляет речь человека, который "гудит" на одной частоте, периодически изменяя ее на другую и меняя громкость, а основная информация "добавляется" в "подтонах".

Рассматриваемые ранее принципы и реализующая их аппаратура были предназначены в первую очередь для воспроизведения формы входного сигнала на приеме как можно точнее в форму сигнала на выходе приемной стороны. Ниже рассмотрим принципы построения аппаратуры, которая моделирует человеческую речь, используя при этом методы цифрового кодирования. Они называются вокодеры (это слово получено объединением двух английских слов voice coder — кодер речевого сигнала).

По принципу определения параметров фильтровой функции различают следующие типы вокодеров:

· канальные (полосовые, channel);

· формантные;

· ортогональные;

· вокодеры с линейным предсказанием (липредеры — с линейным предсказанием речи).

Ранее вокодеры выполнялись только на основе аналоговой техники на протяжении всего разговорного тракта. Теперь наиболее распространена цифровая техника.

В упрощенном виде вышесказанное выглядит таким образом:

В формировании того или иного звука речи человека участвует та или иная часть этих элементов. Если звук формируется с участием голосовых связок, поток воздуха из легких вызывает их колебание, что порождает звуковой гон. Последовательность формируемых таким образом звуков составляет тоновую речь (или тоновый сегмент речи). Если звук формируется безучастия связок, тон в нем отсутствует, и последовательность таких звуков составляет нетоновую речь (нетоновый сегмент речи). Спектр тонового звука может быть смоделирован путем подачи специальным образом сформированного сигнала возбуждения на вход цифрового фильтра с параметрами, определяемыми несколькими действительными коэффициентами. Спектр нетоновых звуков - практически равномерный, что обусловлено их шумовым характером.

В реальных речевых сигналах не все звуки можно четко разделить на тоновые и нетоновые, а приходится иметь дело с некими переходными вариантами, что затрудняет создание алгоритмов кодирования, обеспечивающих высокое качество передачи речи при низкой скорости передачи информации.

Описанный принцип кодирования получил название LPC (Linear Prediction Coding - кодирование с линейным предсказанием), поскольку центральным элементом модели голосового тракта является линейный фильтр. Наиболее известный стандартный алгоритм, построенный по описанному принципу, был стандартизован министерством обороны США под названием LPC-10, где число 10 соответствует количеству коэффициентов фильтра. Данный кодер обеспечивает очень низкую скорость передачи информации 2.4 Кбит/с, однако качество воспроизводимых речевых сигналов оставляет желать лучшего и не удовлетворяет требованиям коммерческой речевой связи - речь носит ярко выраженный «синтетический» характер.

В следующих главах детально разберем вокодеры с линейным предсказанием, принципы их устройства, различные методы их работы, области применения и другие аспекты. Также будет затронута тема кодеков, базирующихся на использовании вокодеров.



2020-03-19 620 Обсуждений (0)
Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием. 0.00 из 5.00 0 оценок









Обсуждение в статье: Глава 1: Понятие «вокодер». Устройство и основные функции вокодера с линейным предсказанием.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (620)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.01 сек.)