uzluga.ru
добавить свой файл


Information retrieval and the Semantic Web

Докладчик: Кийко Александр

План доклада

  • Ранжирование в информационном поиске

  • Основные подходы к обработке семантических документов

  • Прототипы

  • Заключение



1. Схема работы поисковой машины (ПМ)



Ранжирование в информационном поиске (абстрактно)

  • Запрос: «Получение свидетельства пенсионного страхования»

  • Документ 1: «… Вчера получил пенсионное свидетельство на работе…»

  • Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…»

  • Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»



Векторная модель



Принципы назначения весов терминам



Ранжирование в информационном поиске (формально)



2. Технологии Semantic Web



Языки разметки

  • RDF (Resource Description Framework)

  • OWL (Web Ontology Language)

  • DAML+OIL



Пример RDF файла

Cal

Cal Henderson



RDF - триплеты



RDF – триплеты (2)

  • Каждый RDF-триплет состоит из subject, predicate, object.

  • Каждый RDF-триплет описывает уникальный факт



Компоненты системы



Задачи

  • Кодирование и декодирование RDF

  • Индексирование

  • Ранжирование

  • Использование семантики



Использование поисковых систем для поиска по семантическим документам (Semantic web document)



Тестовые системы

  • OWLIR

  • Swangler



Swangler

  • Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной

  • Предоставляет интерфейс поиска, запросы должны иметь специальный формат



Область применения

  • Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей

  • Стандарт HTML не позволяет добавить разметку к тексту

  • Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно



Пример работы

RDF - триплет

(http://www.xfront.com/owl/ontologies/camera/#Digital

http://www.w3.org/2000/01/rdf-schema#subClassOf

http://www.xfront.com/owl/ontologies/camera/#PurchaseableItem)

-> (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется)

BE52HVKU5GD5DHRA7JYEKRBFVQ

WS4KYRWMO3OR3A6TUAR7IIIDWA

2THFC7GHXLRMISEOZV4VEM7XEQ

HO2H3FOPAEM53AQIZ6YVPFQ2XI

6P3WFGOWYL2DJZFTSY4NYUTI7I

N656WNTZ36KQ5PX6RFUGVKQ63A

IIVQRXOAYRH6GGRZDFXKEEB4PY

OWLIR

  • Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL)

  • Работает с разными поисковыми машинами, тестировалась на двух: two-HAIRCUT и WONDIR

  • Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)



Описание OWLIR: события



Система построения логических выводов

  • Используется Java Expert System Shell

Пример вывода:

->Событие: фильм “Очень страшное кино”

можно сделать вывод о жанре, используя IMDB

->Жанр: “комедия”

->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием

Схема работы OWLIR



Запрос к системе

  • Запрос отображается в документ, содержащий RDF – триплеты и текст

'UMBC Blood Drive!!

Office of Student Life launches its annual Blood Drive for the Red Cross

on Mon, Nov 20 in the UC Ballroom from 10am - 4pm.

triple(charity_001)(

‘http://gentoo.cs.umbc.edu/howlir/announcements/charity#charity _001_place',

‘http://gentoo.cs.umbc.edu/ontologies/event_ont#Building',

'University Center').



Интеграция

  • Логические системы дают хорошие результаты, но очень плохо масштабируются

  • Во время операции поиска находятся документы, содержащие термины из запроса

  • Логическая система применяется к небольшому набору данных для поиска подходящего решения



Ранжирование

  • Каждый RDF-триплет отображается в 1 терм

  • Релевантность определяется по тем же формулам, что и в классическом поиске

  • Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M

    • N – количество терминов в документах
    • M – количество RDF-триплетов


Результаты



3.Swangling

  • Как осуществлять преобразование семантических элементов в обычные термы (swangling)?

  • Когда применять логические выводы?

    • Применять к документу перед индексированием
    • Применять к запросу во время поиска
  • Какова должны быть глубина вывода?



Использование поисковых машин

  • Crowlers

  • Ограничения

    • Индексируемые символы
    • Длина запроса


Заключение

  • Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин

  • Рассмотрены демонстрационные системы: OWLIR, Swangler.