Мегаобучалка Главная | О нас | Обратная связь


Назначение и использование лексера



2018-07-06 431 Обсуждений (0)
Назначение и использование лексера 0.00 из 5.00 0 оценок




МИНОБРНАУКИ

Федеральное государственное бюджетное образовательное

Учреждение высшего образования

«Чувашский государственный университет имени И.Н. Ульянова»

(ФГБОУ ВО «ЧГУ им. И.Н. Ульянова»)

 

Факультет информатики и вычислительной техники

Кафедра компьютерных технологий

 

 

ОТЧЕТ

О ПРЕДДИПЛОМНОЙ ПРАКТИКЕ

 

 

на базе __ООО «ИТ-Консалтинг»___

(наименование профильной организации)

 

Студент-практикант, 2 курса магистратуры, направление подготовки «Программная инженерия», группа КТМ-01-16/1 ___________________________ Иванов П.А.
  подпись, дата ФИО
     
     
Руководитель, зав. кафедрой компьютерных технологий, д. пед. н., профессор ___________________________ подпись, дата Лавина Т.А.
уч. степень, уч. звание ФИО
     
Руководитель от профильной организации, заместитель технического директора ___________________________  
должность Петров С.А
подпись, дата ФИО
Заведующий кафедрой компьютерных технологий, д. пед. н., профессор    
уч. степень, уч. звание ___________________________ подпись, дата Лавина Т.А.
ФИО
     
     

 

Чебоксары 2018

 

СОДЕРЖАНИЕ

 

Аннотация. 4

Введение. 5

1 Аналитическая часть. 7

2 Проектно-конструкторская часть. 14

Заключение. 23

Приложение. 24

ПриложениеА.. 25

Дневник практики. 25

Список использованных источников. 26

 


 

Задание студенту-практиканту

 

Федеральное государственное бюджетное образовательное учреждение

Высшего образования

«Чувашский государственный университет имени И.Н. Ульянова»

(ФГБОУ ВО «ЧГУ им. И.Н. Ульянова»)

Факультет информатики и вычислительной техники

Кафедра компьютерных технологий

ЗАДАНИЕ

Студенту-практиканту

Иванову Павлу Анатольевичу, студенту группы КТМ-01-16/1

ФИО студента-практиканта, группа

 

для прохождения преддипломной практики на (в)

ООО «ИТ-Консалтинг»

наименование профильной организации

 

1. Ведение и оформление дневника практики.

2. Прохождение инструктажа по ознакомлению с требованиями охраны труда, техники безопасности, пожарной безопасности, а также правилами внутреннего трудового распорядка организации, предоставляющей место для прохождения практики.

3. Выполнение индивидуального задания:

- изучение литературы и ресурсов сети Интернет по теме ВКР:

- обоснование актуальности темы ВКР, ее теоретической и практической ценности для профильного предприятия или организации;

- проведение всестороннего анализа собранных материалов и данных по теме ВКР, состояния дел с решением проблемы и формулировка основных задач, решаемых в ВКР, формализация требований к программному обеспечению;

- формулировка выводов и обоснование методов, процедур исследования, принимаемых решений по рассматриваемым вариантам и средствам достижения поставленных целей ВКР;

- проектно-конструкторская проработка задач ВКР (алгоритм решения задачи, версии программы, фрагменты конструкторской, программной, технологической и другой документации);

- апробация имеющихся результатов решения задач ВКР (результаты тестирования и отладки разработанных программных средств, план тестирования и предполагаемый набор тестовых данных и т.п.)

- формулировка выводов (достоинства, недостатки, предложения по модернизации и расширению функций, возможностей и интерфейса программного обеспечения);

- использование для решения научных и инженерных проблем ВКР современных и перспективных средств разработки программных продуктов, методологий и технологий проектирования программного обеспечения, баз данных и интерфейсов, средств автоматизации разработки, а также технических средств вычислительной, коммуникационной и другой техники с обоснованием их применимости;

- оформление отчета по практике в соответствии с рекомендациями п.п. 6,7 программы практики.

 

Руководитель практики от кафедры ______________________________

 

Дата выдачи задания «____»__________20__ г.


 

Аннотация

 

Отчет 26 с., 5 рис., 1 прил.

ОБРАБОТКАЯ EСТЕСТВЕННОГО ЯЗЫКА, АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ, НОРМАЛИЗАЦИЯ ТЕКСТА, ЛЕММАТИЗАЦИЯ ТЕКСТА, СТЕММАТИЗАЦИЯ ТЕКСТА

Предметом практики является разработка алгоритмов поисковой машины для корпуса русскоязычных текстов.

Цель практики:

- получения профессиональных умений и опыта профессиональной деятельности;

- закрепления, расширения и углубления теоретических и практических знаний умений и навыков, полученных студентами ранее изученных дисциплин учебного рабочего плана.

- повышения уровня освоения компетенций в профессиональной деятельности,

- выполнения выпускной квалификационной работы (ВКР).

В ходе практики изучены алгоритмы для обработки естественного (русского) языка, морфологические, семантические и синтаксические алгоритмы, применимые к анализу русского языка и их композиция в программном продукте, методы машинного обучения в области обработки больших объемов текста.

По результатам практики составлен отчет.


 

Введение

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

Во-вторых, корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая.

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов.

Аналитическая часть

Назначение и использование лексера

Лексер (токенизатор, сегментатор) – это часть анализатора текста на естественном языке. В более широком смысле лексер также участвует в анализе устной речи. Задача лексера - выделить в письменной или устрой речи основные структурные единицы - лексемы и распознать их, сопоставив со словарными формами или другими морфологическими образцами.

Письменная речь может быть представлена печатным текстом (цепочки символов) или графически (отсканированный текст).

Лексер разработан для обработки реальных текстов, содержащих различные грамматические ошибки и опечатки. Поэтому кроме пассивного распознавания слов в исходной цепочке лексер может также активно модифицировать исходную цепочку, сливая и расщепляя лексемы, а также добавляя новые. В результате работы лексера получается сложная структура данных - граф токенизации. Граф токенизации является исходным материалом для работы синтаксического парсера.

Лексер появляется в системе обработки текста в результате декомпозиции задачи парсинга. Он упрощает реализацию морфологического и синтаксического анализаторов, так как позволяет им работать с более крупными единицами - лексемами. Вводимое таким способом упрощение неявно ограничивает общность всей системы, так как сама по себе идея разбивки текста на независимые лексемы сочетается не со всеми языками. Более того, даже для языков с естественным выделением слов на письме в звуковом представлении появляются сложные эффекты слияния слов в более крупные единицы. В языках типа французского это даже находит свое отражение на письме в виде слияния артиклей и предлогов с другими словами.

Лексер и токенизатор могут работать вообще без явно заданных правил, используя только информацию в лексиконе. Более-менее обязательными являются только задание типа границ слов в языке и список символов-разделителей.

Дополнительные правила помогают решить несколько практических задач, увеличивая эффективность работы грамматического движка. В частности, правила позволяют обрабатывать опечатки и орфографические ошибки, реализовывать несловарную морфологию, уменьшать неоднозначность распознавания слов за счет частичного снятия омонимии.

Алгоритмы, которые разработаны для решения вышеописанных задач, допускают различную тонкую настройку на объектный язык и на особенности обрабатываемых текстов и сообщений. Для каждого вида настройки можно создать правила. Правила пишутся в текстовых исходных файлах словаря согласно определенным спецификациям, которые мы детально рассмотрим далее. Спецификации разработаны так, чтобы правила можно было легко редактировать в любом простом текстовом редакторе или генерировать программно, например в результате статистической обработки языковых корпусов. Компилятор словаря при трансляции этих спецификаций формально проверяет корректность правил, оптимизирует и сохраняет в специальном внутреннем представлении. Затем движок в ходе разбора текста подгружает скомпилированные правила, обычно не тратя время на разбор их синтаксиса. Таким образом достигается компромисс между удобством написания правил и эффективностью их использования движком.

 



2018-07-06 431 Обсуждений (0)
Назначение и использование лексера 0.00 из 5.00 0 оценок









Обсуждение в статье: Назначение и использование лексера

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (431)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.009 сек.)