Структура HTML -документа
Кафедра АСУ Курсовой проект «Разработка программных средств конвертирования HTML текстов в семантическую сеть»
Выполнила: Студентка 5-го курса группы УИС-511 Болотова Е.А. Проверил: Саркисян Р.Е.
Москва 2001 Содержание: Что такое семантическая сеть …………………………..3 Основные сведения о языке HTML …………………….3 1.Введение ………………………………………….3 2.Сруктура HTML-документа ……………………..4 Что такое фреймы ……………………………………….7 Возможности представления знаний на базе языка HTML ……………………………………………...8 TextAnalyst 2.0 – персональная система автоматического анализа текста ………………………..14 Принцип работы HTML-конвертора …………………...17 Список использованных источников …………………..21 Что такое семантическая сеть
Семантическая сеть – структура для представления знаний в виде ориентированного графа, в котором вершины – это понятия, а дуги - отношения. Термин семантическая означает "смысловая", а сама семантика – это наука, устанавливающая отношения между символами и объектами, которые они обозначают, что есть наука, определяющая смысл знаков. Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию логическому программированию, фреймовым системам и другим языкам представления. На сегодняшний день существует множество вариантов семантических сетей. Их терминология и структура различаются, но существуют сходства, присущие всем семантическим сетям: 1. Узлы семантических сетей представляют собой концепты предметов, событий, состояний 2. различные узлы одного концепта относятся к различным значениям, если они не помечены как относящиеся к одному концепту 3. дуги семантических сетей создают отношения между узлами-концептами (пометки над дугами указывают на тип отношения) 4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями 5. концепты организованы по уровням в соответствии со степенью обобщенности так, как, например, сущность, живое существо, животное, плотоядное. Несмотря на некоторые различия, сети удобны для чтения и обработки компьютером, а также достаточно мощны, чтобы представить семантику естественного языка. Наиболее часто в семантических сетях используются следующие отношения: - связь типа "часть-целое" ("класс-подкласс", "множество-подмножество" и т.п.) - функциональные связи, определяемые обычно глаголами "производит", "принадлежит" и т.п.) - количественные ("больше", "меньше", "равно" и т.п.) - пространственные ("близко от", "далеко от" и т.п.) - временные ("раньше", "позже" и т.п.) - логические связи ("и", "или" и т.п.) - лингвистические связи и т.д.
Основные сведения о языке HTML Введение Все стандартные броузеры для сети Интернет используют способы представления текстов, основанные на языке HTML. HTML (Hyper Text Markup Language) – это язык разметки гипертекста. Этот язык «понимают» все компьютеры, он довольно прост, но при этом имеет достаточные выразительные средства для удобного описания разных типов документов. Язык позволяет хранить текст в «чистом» виде (не кодируя его), что делает возможным просмотр HTML скриптов с помощью обычных текстовых редакторов. Этот язык предоставляет авторам Интернет - публикаций средства: - представления документов, включающих заголовки, тексты, таблицы, списки, «картинки» и т.п. элементы; - осуществления навигации по отдельным документам и множеству документов путем использования гиперссылок; - конструирования диалоговых форм для взаимодействия с удаленными сервисами, доступными в сети; - включения в документы вычисляемых форм (spread-sheets), видео и звука, равно как и разнообразных приложений. Первая версия языка HTML была разработана Т. Бернерс-Ли из Европейского Центра ядерных исследований (CERN). В дальнейшем язык претерпел существенные изменения. К середине 90-х годов произошла стандартизация его версий, которая стала курироваться международными организациями. В настоящее время наиболее развитой является версия языка HTML 4.0, в которой представлены новые возможности аппаратуры и требования производителей программного обеспечения броузеров, а также пожелания Интернет – авторов.
Структура HTML -документа
В HTML – файле находится символьная информация. Часть ее – это данные, составляющие содержимое документа, а другая часть – HTML – теги, языковые конструкции, используемые для разметки документа и управляющие его отображением. Для выделения тегов в тексте HTML – документа эти конструкции берутся в угловые скобки. Обычно теги используются парами: открывающий и закрывающий тег. Типичный HTML – документ имеет следующую структуру:
< ! DOCTYPE HTML PUBLIC “-//W3C//DTD HTML 4.0//EN” “http://www.w3.org/TR/REC-html40/strict.dtd”> <HTML> <HEAD> <TITLE> Наименование документа </TITLE> <META> name=keywords content=”Ключевые слова”> </HEAD> <BODY> Тело документа </BODY> </HTML>
В приведенном фрагменте комментарий <!DOCTYPE …> фиксирует текущее состояние спецификации версии языка HTML. Документ должен открываться тегом <HTML>, закрываться тегом </HTML> и состоять из двух частей: заголовка и тела документа. Заголовок находится между тегами <HEAD> и </HEAD> и содержит служебную информацию. В представленном выше фрагменте HTML – документа показаны два компонента заголовка: - <TITLE> Заглавие </TITLE> - строка символов, которая отображается в заголовке окна броузера. - <META> - дополнительная информация об HTML – документе (в нашем примере этот тег с помощью параметров name и content фиксирует значение первого атрибута как keywords, а второго – как ключевые слова «Представление знаний» и «Мультиагентные системы»). Этот тег ориентирован на аннотирование Интернет – документов и значительно облегчает задачу индексирования их, например, с помощью сетевых роботов. Кроме этих компонентов заголовок может содержать еще и другие теги: - <BASE> - базовый адрес, используемый при обработке относительных URL, - <LINK> - используется для связи HTML-документа с другими источниками данных. Собственно содержание документа находится в теле между тегами <BODY> и </BODY>. Иногда вместо этих тегов можно встретить тег <FRAMESET>, который определяет специальный тип документа – Web-страницу с кадрами или фреймами. Как правило, тело HTML-документа состоит из последовательности структурных единиц, базисными из которых являются: - заголовки разного уровня (текст, заключенный между тегами <Hi> и </Hi>), где i может меняться от 1 до 6; - параграфы (текст, заключенный между тегами <P> и </P>). Это минимальные средства форматирования документа. Естественно, что в HTML эти средства значительно богаче (всевозможные выравнивания, табуляция, несколько видов списков, таблицы и т.д.). Наиболее важными базовыми конструкциями языка HTML являются якоря. Синтаксически эти конструкции представлены тегами <A> и </A> с атрибутами name и href. Якорем является конструкция вида: <A name=«Метка»>Текст</A> Эта конструкция обеспечивает уникальное в пределах документа имя начала определенного фрагмента HTML-текста. При этом текст, заключенный между тегами <A> и </A>, как правило, задает семантически значимое наименование заголовка. Для ссылок на помеченные таким образом части Интернет - документа используются конструкции следующего вида: 1) <A href=«#Метка»>Текст</A> - Задает локальную ссылку на часть документа, начинающуюся с указанной метки 2) <A href=«URL»>Текст</A> - Задает глобальную ссылку на документ в сети, однозначно идентифицируемый с помощью URL (Unified Resource Locator) – Интернет – адрес: имя домена, уточненное названием протокола и собственное имя документа, включая путь к нему в пределах данного домена. Важными конструкциями HTML также являются таблицы с богатыми возможностями многоуровневых заголовков и формы, с помощью которых в язык введены средства обеспечения диалога с читателями Интернет - документов. Базисными конструкциями форм являются редактируемые текстовые поля, элементы выбора, различные кнопки и т.д. Пример создания таблицы:
<TABLE> <TR> <TD> столбец1, строка1 </TD><TD> столбец2, строка1 </TD> </TR> <TR> <TD> столбец1, строка2 </TD><TD> столбец2, строка2 </TD> </TR>
Простейший пример создания формы:
<FORM METHOD=”POST” …> <P> Вы можете ввести в поле одну строку <INPUT NAME=”entry”> </P> Для обработки результатов ввода нажмите кнопку <INPUT TYPE=”submit” VALUE=”Принять запрос”> </P> </FORM>
Еще одна важная конструкция – это фреймы (frames). С их помощью можно разделить документ на части и представлять их в отдельных, неперекрывающихся областях экрана. Такое представление информации характерно для многооконных приложений. Кроме этого имеются и другие конструкции разметки Интернет – документов. Среди этих конструкций надо отметить более четкое разделение между структурой документа и его представлением за счет использования таблиц стилей, скриптов, поддерживающих, в частности, создание динамических страниц, новый механизм интеграции текстовых и графических ссылок, исполняемый на стороне клиента и стандартизацию механизма подключения к HTML-документам базисных медиаобъектов и приложений.
Что такое фреймы
Термин фрейм был предложен в 70-е годы для обозначения структуры знаний для восприятия пространственных сцен. Фрейм – это абстрактный образ для представления некоего стереотипа восприятия. Фреймом также называется и формализованная модель для отображения образа. Различают: - фреймы-образцы (прототипы) – хранятся в базе данных - фреймы-экземпляры – создаются для отображения реальных фактических ситуаций на основе поступающих данных - фреймы-структуры – используются для обозначения объектов и понятий - фреймы-роли - фреймы-сценарии - фреймы-ситуации
Обычно структура фрейма представляется как список свойств:
(ИМЯ ФРЕЙМА: (имя 1-го слота: значение 1-го слота), (имя 2-го слота: значение 2-го слота), -------------------------- (имя N-го слота: значение N-го слота)
В качестве значения слота может выступать имя другого фрейма, так образуется сеть фреймов. Существует несколько способов получения слотом значений во фрейме-экземпляре: - по умолчанию от фрейма-образца (значение default) - через наследование свойств от фрейма, указанного в слоте АКО (a kind of) - по формуле, указанной в слоте - через присоединенную процедуру - явно из диалога с пользователем - из базы данных.
Популярное: Почему стероиды повышают давление?: Основных причин три... Как построить свою речь (словесное оформление):
При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (182)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |