Мегаобучалка Главная | О нас | Обратная связь


Возможности представления знаний на базе языка HTML



2020-02-03 241 Обсуждений (0)
Возможности представления знаний на базе языка HTML 0.00 из 5.00 0 оценок




 

Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи.

Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание.

Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами.

Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name.

Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра.

Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.

Но в целом, выделение значимых для семантической интерпретации конструкций является экспертной задачей, решаемой каждый раз автором соответствующей Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска.

Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.

 

Фрагмент соответствующего HTML – текста представлен ниже:

 

<html>

<head>

 

---------------------------------

 

<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор">

<meta name="GENERATOR" content="Microsoft FrontPage 4.0">

<meta name="ProgId" content="FrontPage.Editor.Document">

<title>Microsystems, Ltd</title>

<link rel="stylesheet" type="text/css" href="style.css">

</head>

 

-----------------------------------------------

 

<body topmargin="0" leftmargin="0">

<table border="0" cellspacing="0" cellpadding="0">

<tr>

<td href="/index.php?lang=eng"><img

border="0" src="/images/top_logo.gif"></a></td>

<td align="left">

<table border="0" cellspacing="0" cellpadding="0">

         <tr><td border="0" src="/images/top_up.gif">

         </td></tr>

         <tr> <td width="100%">

<table border="0" cellspacing="0" cellpadding="0"

bgcolor="#001395" height="23">

             <tr><td width="100%">

 

-------------------------------------

 

                 </table>

                 </td></tr>

               </table>

                       <!-- end menu -->

 

----------------------------------------------

 

   <!-- start menu here -->

 <table border="0" cellspacing="0" cellpadding="0" width="100%">

   <tr> <td align="left">

  <table border="0" cellspacing="0" cellpadding="0">

         <tr><td width="100%">

        <p>&nbsp;</p>

   <p align="center">               

<img border="0" src="/images/10thyear_s.gif" height="52">

    </p>

           </td></tr>

         <tr><td align="left">

           <!-- left menu-->

    <table border="0" width="218">

   <tr><td bgcolor="#DDDDDD" align="left">

                 <p align="right"><b>Products</b></td>

              </tr>

 <tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

                         <td align="right">

<a href="/index.php?lang=eng&dir=content/products/&id=body&left=

content/products/menu.txt   " target="_self">

<span style="color: #000000; text-decoration: none">

       TextAnalyst SDK</span></a>

</td></tr>

<tr><td align="right">

<p align="right"><img border="0" src="/images/bd14580_.gif"

height="12">

TextAnalyst</p>

</td></tr>

<tr onmouseout="this.style.backgroundColor='transparent'"

onmouseover="this.style.backgroundColor='#6B8ADE'">

<td align="right">

<a href="/index.php?lang=eng&dir=content/products/&id=

tref&left=content/products/menu.txt

" target="_self">

<span style="color: #000000; text-decoration: none">

Text Referent</span></a>

</td></tr>

<!-- end left menu-->

 

----------------------------------------

 

       </table>

<!-- end here -->

            </td>

            <!-- free space -->

            <td align="left">

            &nbsp;&nbsp;&nbsp;&nbsp;

            </td>

            <!-- end free space -->

                      

     <td align="left" >

     <!-- content started here -->

      <table border="0" cellspacing="6" cellpadding="0">

      <tr> <td align="left">

<head>

<meta name="DESCRIPTION" content="TextAnalyst - personal text mining system">

<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">

<title>TextAnalyst</title>

</head>

<div align="left">

<table border="0" align="left" cellspacing="4" cellpadding="3">

<tr> <td align="center" width="250">

   <p align="center">&nbsp;</p>

   <p align="center"><a href="cgi-bin/stat/loadfile.pl?file=ta_rus">

   <img border="0" src="images/downloads.gif"></a></p>

   <p align="center">Получите бесплатную версию

   TextAnalyst</p>

   <table border="0">

     <tr><td bgcolor="#008000">

         <p align="center" class="menu">

         <font color="#FFFFFF">Системные требования</font></td> </tr>

     <tr><td PC</td> </tr>

     <tr> <td 9X, NT, 2000, Me</td> </tr>

     <tr> <td bgcolor="#C0C0C0">

         <p align="center" class="menu">

  <font color="#FFFFFF">Технические характеристики</font></td>/tr>

     <tr><td align="left">

         <ul>

<li>&nbsp;Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li>

 <li>Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>

<li>Собственный объем TextAnalyst не превышает 5Мб.</li>

<li>Форматы обрабатываемых файлов:</li>

<li>*.txt (ANSI, DOS), *.rtf</li>

<li>Экспорт информации в форматы: *.txt,

  *.csw (электронные таблицы).</li>

         </ul> </td></tr>

   </table>

 

-----------------------------------

 

<h1 align="center">

<img border="0" src="../../images/octopus_shaden.gif" align="left" height="112">TextAnalyst 2.0&nbsp;</h1>

   <p align="center"><b>персональная система автоматического анализа текста&nbsp;</b></p>

   <p>TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:&nbsp;</p>

   <ul>

     <li>анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;&nbsp;</li>

        <li>анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;&nbsp;</li>

     <li>смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;&nbsp;</li>

     <li>автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;&nbsp;</li>

     <li>кластеризации информации - анализа распределения материала текстов по тематическим классам;</li>

     <li>автоматической индексации текста с преобразованием в гипертекст;&nbsp;</li>

     <li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;&nbsp;</li>

     <li>автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации;&nbsp;</li>

   </ul>

   <p align="center"><b>Не пугайтесь обилия возможностей!</b></p>

   <p align="center"><i>Работа с TextAnalyst покажется Вам неожиданно простой и приятной, а его аналитические способности сэкономят массу полезного времени...

   </i></p></td> </tr>

</table></div></td> </tr>

</table>

 

----------------------------------

 

</body>

</html>

 

Сравнив приведенные экранную форму и HTML-текст, видим, что семантически значимыми элементами данного документа являются:

- ключевые слова, относящиеся к данному документу: Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор (тег <META>);

- все меню организованы в виде таблиц (тег <TABLE>), в ячейках которых (тег <TD>) расположены ссылки (тег <A href …>), с помощью которых можно перейти к другой интересующей информации. Например, можно получить информацию о продуктах данной компании, выбрав их название из левого меню.

- текст описания возможностей программы TextAnalyst организован в виде списка (тег <li>).

Т.о. можно видеть, семантически значимые характеристики документа могут быть разбросаны по разным частям документа или по разным документам. Это сильно затрудняет семантический анализ Интернет – документов.

Решение этой проблемы в настоящее время связано с использованием двух подходов. Первый подход предполагает, что семантическая разметка документа выполняется вручную его автором на основе специальных метатегов, а второй подход связан с автоматическим или полуавтоматическим преобразованием исходного текста в специальное семантическое представление. Целесообразно конвертировать HTML-тест в более удобную форму представления для дальнейшей обработки.

 



2020-02-03 241 Обсуждений (0)
Возможности представления знаний на базе языка HTML 0.00 из 5.00 0 оценок









Обсуждение в статье: Возможности представления знаний на базе языка HTML

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (241)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.007 сек.)