uzluga.ru
добавить свой файл
1


Лекция 3. Корпус как особый тип информационно-поисковой системы

  • В.П. Захаров

  • Санкт-Петербургский государственный университет


Основные понятия информационного поиска

  • Информационно-поисковая система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов).

  • Два вида информационного поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические.

  • Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий.

  • Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических, лингвистических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.).

  • По сути, КОРПУСЫ – фактографический поиск.

  • По форме, КОРПУСЫ – документальный поиск (поиск по тексту).



Основные понятия информационного поиска (прод.)

  • Релевантность — фундаментальное понятие теории информационного поиска.

  • Два вида релевантности: смысловая и формальная.

  •  Соответствие документа содержанию информационного запроса называют смысловой релевантностью.

  •  Соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью.

  • Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»).

  • КОРПУСЫ: формальная релевантность?!



Подсистемы



Языки запросов и запросно-ответные интерфейсы

  • Глобальные ИПС вербального типа (search engines).

  • КОРПУСЫ: корпусные менеджеры.

  • Интерфейсные веб-страницы глобальных ИПС: страницы запросов и страницы результатов поиска.

  • КОРПУСЫ: корпусные менеджеры – то же с дополнительными возможностями.

  • Языки запросов ИПС Интернет.

  • Ср.: КОРПУСЫ: Языки запросов корпусных менеджеров.



Национальный Корпус русского языка (НКРЯ): поиск

  • Используются возможности Яндекса, в частности, поиск по лемме (выдается документ с любой словоформой заданной лексемы) и поиск по точной форме –

  • см. www.yandex.ru – Расширенный поиск и

  • www.ruscorpora.ru – Поиск в корпусе

  • +

  • Дополнительные возможности: поиск по граммемам, по семантическим признакам, по метаданным.



Поисковый интерфейс НКРЯ



Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации) Cobuild Corpus



Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)



Дополнительные (чисто корпусные) возможности: вычисление мер совместной встречаемости (коллокации)



Коллокации (2)



Коллокации (3)