uzluga.ru
добавить свой файл
1


Метаинформация и поиск


Сервис метаданных

  • для систем P2P сервис метаданных является критически важным;

  • ресурсы в сетях P2P не организованы в единую сеть гипертекстовых документов;

  • для генерации ответов на запросы к узлам требуется описание ресурсов, доступных на этом узле;

  • метаданные определяют качественные показатели поиска.



Скачки в развитии сервисов метаданных

  • метаописание вчера: набор ключевых слов;

  • метаописание сегодня: спецификация с использованием стандарта в предметной области (DC, LOM и др.);

  • метаописание завтра: сформированное с помощью терминов, формирующих смысловые (онтологические) цепочки, описание ресурса, которое несёт смысловую нагрузку и представлено в «понятном» для компьютера виде.



Используемый подход

  • базирование на стандартах Semantic Web;

  • открытое пространство словарей метаописаний;

  • возможность интерпретации автоматическими программными модулями.



Что такое Semantic Web?

  • Semantic Web представляет собой единую платформу, предоставляющую средства совместного использование данных приложениями, компаниями и сообществами по предметным областям

  • Semantic Web – совместная разработка многих участников в рамках одноимённой инициативы World Wide Web Consortium (W3C)

  • Дополнительная информация: http://www.w3.org/2001/sw/



Успешные сценарии использования

  • Библиотека изображений NASA

  • Интеграция данных в Audi

  • Поиск работы в Швейцарии

  • Поиск информации для энергетического консорциума EnerSearch (Sweden, United States, the Netherlands, Germany, France) и др.



Semantic Web и искусственный интеллект

  • современные алгоритмы искусственного интеллекта ещё не способны извлекать и обобщать смысловую составляющую наравне с человеком;

  • Semantic Web позволяет «промаркировать» документ так, что бы смысловая составляющая могла восприниматься (без понимания) компьютером для обработки с применением формальных методов;

  • таким образом, Semantic Web – промежуточный шаг в развитии информационных технологий, который предшествует появлению полноценных систем искусственного интеллекта.



Структура стека Semantic Web



Resource Description Framework (RDF)

  • универсальный стандарт описания информационных ресурсов;

  • в значительной степени зависит от стандарта URI;

  • в основу положена теория графов (возможны только бинарные связи);

  • документ RDF может иметь одно из представлений:

    • графическое (граф);
    • RDF/XML – сериализация RDF в виде документа XML;
    • N3 – нотация, содержащая множество триплетов (ресурс-свойство-значение);
  • позволяет описывать информационный ресурс в терминах одного или нескольких выбранных словарей;

  • не позволяет определять классы и отношения терминов словарей;

  • механизм реификации (reification) позволяет описывать значения свойств ресурсов.



Спецификации RDF на основе URI и XML

  • RDF/XML Syntax Specification (Revised) W3C Recommendation Dave Beckett, ed.

  • RDF Vocabulary Description Language 1.0: RDF Schema W3C Recomendation Dan Brickley, R.V. Guha, eds.

  • RDF Primer W3C Recommendation Frank Manola, Eric Miller, eds.

  • Resource Description Framework (RDF): Concepts and Abstract Syntax W3C Recommendation Graham Klyne, Jeremy Carroll, eds.

  • RDF Semantics W3C Recommendation Patrick Hayes, ed.

  • RDF Test Cases W3C Recommendation Jan Grant, Dave Beckett, eds.



Пример RDF (графическая нотация)



Пример RDF (нотация N3)



Пример RDF/XML



RDF Schema (RDFS)

  • позволяет определять классы и простейшие отношения (наследование) для терминов словарей, используемых для описания информационных ресурсов;

  • документ RDFS является документом RDF.



Позиционирование RDF и RDFS



Сериализация RDFS в виде RDF/XML



Аксиоматика RDF и RDFS

  • базируется на языке логики предикатов, общепризнанной в качестве основ для представления знаний;

  • базовые предикаты:

    • PropVal(P,R, V ) – ресурс P, свойство R, значение V.
    • Type(R, T) – ресурс R имеет тип T.
  • на основе аксиоматики может быть определён механизм прямого вывода:

    • IF E содержит (?u, rdfs : subClassOf, ?v) и (?v, rdfs : subclassOf, ?w) THEN E также содержит (?u, rdfs : subClassOf, ?w) (свойство транзитивности отношения наследования)


Запросы к документам RDF на RDQL

  • в некоторых случаях возможны запросы к документам RDF с помощью XPath;

  • возможны запросы в виде «select-from-where»:

    • select N from course{X}.isTaughtBy{Y}, {C}name{N} where Y="949352" and X=C
  • создан специальный язык запросов RDF Query Language (RDQL).



Подведение итогов об RDF+RDFS

  • RDF – основа для представления и обработки метаинформации;

  • RDF основан на простой графовой модели, основными элементами которой являются «ресурс», «свойство» и «выражение»; выражение – это триплет «ресурс-свойство-значение»;

  • для RDF существует синтаксис XML, поддерживающий простой обмен документами метаописаний;

  • RDF поддерживает описание простейших семантических связей между ресурсами;

  • RDF основан на децентрализованном подходе и поддерживает последовательное развитие базы знаний;

  • RDF не зависит от предметной области и может использоваться для описания любых предметных областей;

  • RDF Schema – простейший язык описания семантических связей терминов, предоставляющий концепции класса, подкласса, свойства и механизмы описания простейших;

  • созданы языки запросов к базам метаописаний RDF и RDFS.



Необходимость более развитых чем RDFS языков онтологий

  • Локальный характер свойств: в рамках RDF Schema нельзя определить диапазоны ограничений только для одного класса, например, нельзя определить, что «коровы едят только траву, когда другие животные едят ещё и мясо»

  • Невозможно специфицировать непересечение классов, например, что «мужчина» и «женщин» являются подклассом «персона», но не пересекаются.

  • Нет возможности порождать новые классы с использованием бинарных отношений объединения, пересечения и дополнения.

  • Нет возможности специфицировать меру отношения, например, указать, сколько родителей класса «персона» может иметь экземпляр «персона».

  • Также RDFS не позволяет специфицировать, что свойство является транзитивным, уникальным или инверсным.



Языки описания онтологических баз данных на основе логики предикатов

  • OWL – Ontology Web Language

    • OWL Lite
    • OWL DL
    • OWL Full
  • DAML - DARPA Agent Markup Language

    • DAML Language (DAML+OIL)
    • DAML Services (DAML-S)
    • DAML Query (DQL)


Требования к языкам онтологий

  • четко определённый синтаксис;

  • эффективная поддержка формирования выводов;

  • формализованная семантика;

  • достаточная выразительная мощь;

  • удобство и простота использования.



Спецификации OWL

  • OWL Web Ontology Language Overview W3C Recommendation 10 Feb 2004.

  • OWL Web Ontology Language Guide W3C Recommendation 10 Feb 2004.

  • OWL Web Ontology Language Reference W3C Recommendation 10 Feb 2004, 12 November 2002.

  • OWL Web Ontology Language Semantics and Abstract Syntax W3C Recommendation 10 Feb 2004.

  • OWL Web Ontology Language Test Cases W3C Recommendation 10 Feb 2004.

  • OWL Web Ontology Language Use Cases and Requirements W3C Recommendation 10 Feb 2004.

  • OWL Web Ontology Language XML Presentation Syntax . 11 June 2003.



Совместимость OWL и RDF/RDFS

  • OWL – расширение RDFS;

  • документ OWL является документом RDF;

  • три варианта OWL:

    • OWL Lite – ограниченное подмножество OWL Full, лёгкость для пользователя и простота создания инструментария;
    • OWL DL – достаточная поддержка вывода, основанная на логике предикатов;
    • OWL Full – наиболее выразителен, не гарантируется поддержка выводов.


Заголовок документа OWL



Описание классов на OWL



Описание свойств на OWL



Ограничения в OWL



Общие выводы об OWL

  • OWL – рекомендация для построения онтологических баз знаний для Веб, позволяющий описывать семантику высказываний в интерпретируемой машиной форме.

  • OWL построен на основе RDF и RDF Schema с использованием синтаксиса RDF/XML;

  • Формализованная семантика и поддержка выводов основывается на применении логики предикатов.



Поддержка подсистемы выводов

  • базируется на логике предикатов (логика первого порядка);

  • языки RDF и OWL Lite/DL могут рассматриваться в рамках логики предикатов.



Пример онтологии



Пример онтологии (продолжение)

  • данная онтология легко может быть выражена в виде OWL и представлена как документ RDF в одном из представлений;

  • на основании этой информации можно делать новые заключения;

  • на основе сформулированной в терминах определённых предикатов можно получать ответы на следующие запросы:

    • «кто является предком для мужчины X»
    • «есть ли у X братья?» и др.
  • классические поисковые машины не могут обрабатывать подобные запросы.



Процесс построения онтологий

  • Определить предметную область и рамки онтологии

  • Определить принципы повторного использования онтологии

  • Перечислить термины (классов)

  • Сформировать таксономию (иерархию) терминов (классов)

  • Определить свойства классов

  • Определить характеристики отношений (меру, транзитивность, инверсность и др.) и диапазоны значений.

  • Определить экземпляры классов (собственно база знаний в терминах онтологии)

  • Проверить согласованность онтологии



Что сделано?



Общая структура семантической базы знаний, интегрируемой с узлом системы



Используемые технологии

  • Protégé 3.1 – редактирование онтологий;

  • Jena 2.3 – хранилище аннотированной базы знаний в рамках каждого узла в виде RDF;

  • IBM Eclipse 3.1 – разработка приложений

  • Java – среда исполнения с поддержкой кроссплатформности;

  • RacerPro – классификация и анализ онтологий.



Над чем ведётся работа?

  • Онтологии предметной области, которые могут использоваться в рамках системы порталов совместно с принятым стандартом метаописаний.

  • Собственный алгоритм выводов и доказательств для OWL DL с высокими характеристиками быстродействия и масштабируемости.

  • Алгоритмы выполнения распределённого поиска в рамках системы на основе модели пиринговых сетей.

  • Попытка описания XML Web-сервиса для поддержки работы с распределённой базы данных онтологий, как альтернатива базированию на платформе JXTA.



Результаты предыдущего опыта

  • Распределённая информационная система на платформе .NET (2005-2006 гг.) http://bpnet.vsu.edu.ru/bpclient/



Географическое распределение узлов пиринговой сети



Настройки параметров узла в административном интерфейсе



Редактирование описания новостей в формате RDF



Редактирование метаописания документа в формате RDF



Поиск документа по всем узлам сети



Результаты распределённого поиска



Спасибо за внимание!