uzluga.ru
добавить свой файл
1
СТРУКТУРА ДЕСКРИПТОРНОГО СЛОВАРЯ И ЕГО ИСПОЛЬЗОВАНИЕ В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ


С.А.Сбитнев, Л.Д.Плешкова

Кузбасское ЦБТИ


Краткая характеристика дескрипторного словаря


В дескрипторный словарь включены термины, выбранные на основе статистического анализа их частотного повторения в десяти тысячах документов, относящихся к различным научно-техническим дисциплинам горного дела (шахтная геология, системы разработок, рудничное крепление и управление горным давлением, проведение горных выработок, буровзрывные работы, рудничный транспорт, открытые работы, водоотлив и водоосушение, вентиляция и горноспасательное дело, обогащение и др.).

Кроме специальных терминов, в словаре имеются общетехнические и общенаучные термины, используемые в горнотехнической литературе (автоматизация, величина, коэффициент, механизм и др.). И, наконец, в словарь включены отдельные слова естественного языка (вода, воздух, земля, рабочий и т.д.), необходимые для раскрытия предметного содержания информационных документов по горному делу.

Помимо указанных слов в словарь введены обозначения различных единиц измерения, встречающихся в горном деле (ватт, вольт, градус и др.), а также все цифры от 0 до 9.

Кроме содержания, синонимы могут различаться по своей структуре. Здесь возможны следующие случаи.

  1. Термин, выраженный одним словом, синонимичен термину, выраженному также одним словом (котловина – мульда, аккумуляция – накопление, гидросмесь – пульпа и т.д.).

  2. Термин, выраженный одним словом, синонимичен терминологическому сочетанию (озокерит – воск горный, перфоратор - молоток бурильный, аппарат загрузочный – питатель).

  3. Термин, выраженный сочетанием слов. Синонимичен другому термину, выраженному также сочетанием слов (аппарат газотеплозащитный – скафандр тепловой, волна взрывная – волна ударная, разубоживание истинное – коэффициент разубоживания).

Словарь снабжен двусторонней системой ссылки, позволяющей легко отыскать синонимичные слова. Все синонимы в словаре получили одинаковые кодовые обозначения, в результате этого они имеют одинаковое кодовое значение в информационно-поисковой системе.

Связанные термины – это термины не синонимичные, но близкие по значению дескрипторы, например: аварийность – авария, водопонижение – осушение, выемка – добыча, гидромеханизация – способ гидравлический.

Термины вышестоящие – обозначают родовое, более общее понятие, по отношению к которому данный дескриптор является более узким, видовым, например: комбайн добычный – вышестоящий термин – машина выемочная.

Поясняющие характеристики – перечисляют не все возможные разновидности дескриптора, а только те из них, которые представляют интерес для данной информационно-поисковой системы. Они располагаются в алфавитном порядке в конце дескрипторной ассоциации после основного дескриптора и относящихся к ним синонимов, а также связанных и вышестоящих терминов.

Наличие в дескрипторной ассоциации поясняющих характеристик дает возможность индексатору в случае надобности дополнить описание поискового образа документа характеристиками недостающими в этом документе.

Одни и те же поясняющие характеристики могут уточнить различные основные дескрипторы, например: характеристика «воздушный» используется для уточнения дескрипторов «забой», «система», «струя», «пульсатор»; характеристика «ударные» для дескрипторов «бурение», «вязкость», «механизмы» и т.д.

Включенные в словарь термины и слова естественного языка, за которыми закреплены определенные научно-технические понятия, необходимые для описания документа, названы дескрипторами.

Термины и слова естественного языка, которые обладают систематизирующими свойствами (обычно они выражены именами существительными) и имеют самостоятельное значение для поиска информации, в информационно-поисковой системе принято называть базисными или основными дескрипторами (крепь, штрек, зарядник и т.п.).

Однако основные дескрипторы, имея большие систематизирующие свойства, сами нуждаются в уточнении некоторыми характеристиками. Например, основной дескриптор – крепь – имеет 53 характеристики: анкерная, деревянная, металлическая, забивная, податливая, тюбинговая, шагающая и т.д.

Характеристики, как правило, самостоятельного значения для поиска информации не имеют. Чтобы не увеличивать объема словаря, отдельные характеристики, которые относятся ко многим основным дескрипторам, вынесены в разряд базисных, например механический, автоматический, воздушный и т.д.

Основные дескрипторы в тексте документа вступают в взаимосвязь не только между собой (крепление – штрек), но и между своими характеристиками (крепление – крепь металлическая – штрек однопутевой). В этом случае происходит образование новых дескрипторов; крепь металлическая, штрек однопутевой.

Информационно-поисковая система (ИПС) и средства ее реализации обеспечивают возможность осуществления поиска не только по основному дескриптору или их совокупности, но и по вновь образуемым дескрипторам.

Дескрипторный словарь представлен двумя частями: собственно словарь, который состоит из расположенных в алфавитном порядке дескрипторных ассоциаций, и индикаторный словарь. Каждая ассоциация в словаре может включать основной дескриптор, вышестоящий дескриптор (он указывает на родовую связь основного дескриптора с ним), связанный дескриптор, синонимы основного дескриптора, а затем его характеристики, их синонимы и базисные отношения.

Синонимы – термины, в той или иной степени равнозначные данному дескриптору или его характеристике (если они приводятся следом за ними).

Имеются несколько разновидностей синонимов. По содержанию синонимы подразделяются на полные и относительные. Полные синонимы – это термины, которые могут взаимозамещать друг друга в любых ситуациях в пределах данной информационно-поисковой системы. Например, аккумуляция – накопление, асбест – лен горный и т.д.

Относительные синонимы – термины, которые могут замещать друг друга не всегда, а только в определенных случаях, например: бункер и емкость, величина и размер.


Индикаторный словарь

Кодовый указатель представляет собой список расположенных в алфавитном порядке дескрипторов и поясняющих их характеристик, включенных в дескрипторный словарь. В том случае, если одна и та же характеристика входит в несколько дескрипторных ассоциаций, в индикаторном словаре она указывается только один раз.

При составлении индикаторного словаря соблюдались следующие правила словесного оформления. Имена существительные в словаре записаны в форме именительного падежа единственного числа*, имена прилагательные – в форме именительного падежа единственного числа мужского рода. Если среди слов, используемых в указателе, встречаются омонимы (т.е. два слова, одинаковых по произношению и написанию, но различных по значению), то значение этих слов поясняется соответствующими пометками, например: рабочий (сущ.), рабочий (прил.), простой (сущ.), простой (прил.).

В связи с тем, что при индексировании могут встретиться трудности в кодировании синонимов, ниже рассмотрены способы кодирования всех трех случаев структурных разновидностей синонимов.

1. Два односложных синонима получают одно и то же кодовое обозначение, например: «бок» - 00336, его синоним «крыло» имеет тот же кодовый индекс – 00336.

2. Однословный термин, синонимичный терминологическому сочетанию из двух, трех и т.д. слов, получает двойное, тройное и т.д. кодовое обозначение, например: «псевдоплывун» имеет шифр 04716, 03171 потому, что его синоним «плывун ложный» имеет сложное кодовое обозначение, состоящее из обозначения «плывун» - 04716 и «ложный» - 03171.

3. Терминологические сочетания, синонимичные друг другу, в индикаторном словаре имеют одинаковые индексы, в то время как их составные компоненты имеют другие индексы, например: индекс синонимичных дескрипторов «склад дверной» и «крепь штрековая» будет 02246, а индексом составных компонентов соответственно будут 04163, 01414, 03011, 10426.

Для облегчения процесса индексирования в индикаторном словаре помещены все связанные и вышестоящие термины, относящиеся к основному дескриптору. В том случае, если связанные и вышестоящие дескрипторы относятся к дескриптору, выраженному словосочетанием, то у основного дескриптора поставлен знак «+».

Особый случай представляет кодирование относительных синонимов. Принято тот термин, который обладает более широким объемом содержания, разбивать на два термина меньшего объема содержания, один из которых синонимичен другому термину, а второй не является его синонимом. Например, термин»газ горючий» разбивается на два термина.

Термин «газ горючий», синонимичный термину, «горючее газообразное», получающий общее с ним кодовое обозначение.

___________


* В некоторых случаях имена существительные ставятся в форме множественного числа, например: аппараты (как предметы) в отличие от аппарата (административный), чаши бегунные (употребительная форма этого термина).



  1. термин «газ горючий», не синонимичный термину «горючее газообразное» и имеющий отличительный от него код.

Индексирование документов


Содержание документа описывается путем выбора из него наиболее существенных характеристик. Такими характеристиками являются слова, отражающие предметное содержание документа. К ним относится большинство имен существительных, имен прилагательных и причастий, встречающихся в следующих частных документах: а) заглавий; б) первой фразе, если она не начинается со слова «отмечается»; в) в последующих фразах, которые содержат сказуемые, указанные в списке. Причем, сказуемые приведены к одной форме глагола, одному времени и числу, в то время как в тексте могут встретиться сказуемые с другими грамматическими признаками.

Имена существительные, прилагательные и причастия, которые не связаны непосредственно с предметным содержанием документа, не выписываются.

Другие части речи (местоимения, глаголы, большинство числительных, деепричастия, наречия, предлоги и союзы) из обрабатываемого документа не выписываются, так как они обычно не отражают его предметного содержания.

В некоторых случаях может появиться необходимость выписывать другие части речи, если они нужны для отражения предметного содержания документа(например, наречия «больше», «меньше», предлог «без» и т.д.).

Имена существительные выписываются в форме именительного падежа единственного числа, имена прилагательные и причастия выписываются ниже существительных в форме именительного падежа и согласуются в роде с теми именами существительными, к которым относятся, например: «клеть подъемная», «зона обогащенная».

Если в документе встречаются неделимые терминологические сочетания (т.е. такие сочетания, которые теряют свое специальное терминологическое значение при расчленении их на отдельные слова), то они выписываются целиком, например: лен горный, мельница чилийская, единица измерения, закон Дарси, счетчик Гейгера-Мюллера, шкала профессора Протодьякова и т.д.

Встречающиеся в тексте названия бассейнов, марки комбайнов и наименования некоторых единиц измерения (а отдельных и числовые значения: мощность пласта, угол падения пласта) выделяются как характеристики документа.

Кроме того, для каждого обрабатываемого документа указываются его форма (статья, патент, обзор); характер публикации (научно-исследовательская работа, лабораторные, полупромышленные испытания, опыт, проект, теория, схема, методика); на каком языке напечатан оригинал текста и год его издания.

Не учитываются в качестве характеристики документа встречающиеся в нем названия комбинатов, трестов, шахт, моделей машин и их деталей.

Из обрабатываемого документа выписывается не более 20 характеристик, причем каждая характеристика выписывается только один раз. Предметные характеристики записываются на карту характеристик. Карта разделена на четыре поля (поля показаны на карте), в каждом из которых отмечаются следующие данные:

в I поле характеристика из текста, передающие предметное содержание документа;

во II поле – цифровые обозначения характеристик в восьмеричной системе счисления, списанные из индикаторного словаря;

в III поле - вышестоящие и связанные термины;

в IV поле - цифровые обозначения вышестоящих и связанных терминов в восьмеричной системе счисления.

Характеристики записываются в столбце в том порядке, как они встречаются в тексте. Форма публикации, ее характер, язык и год издания отмечаются в конце карты после основных характеристик. В левом верхнем углу карты проставляется инвентарный номер информационного документа. Ниже показан реферат с последующей его обработкой на карте характеристик.


2359 УДК 622.647

Передвижка изгибающихся конвейеров гидравлическими домкратами ДГ-2. Савельев И.П., Гудырин Ю.Н. «Уголь Украины», 1964г., №9, 25-26.

На шахтах комбината «Луганскуголь» для передвижки изгибающихся конвейеров КСП-1м, СП-46, СП-48, СП-63 широко применяются переносные гидравлические домкраты ДГ-2. В качестве привода домкрата используется электросверло СЭР-19Д. Стан конвейера передвигается участками по 7-10 м. независимо от работы комбайна по мере продвижения его по лаве. При ходе поршня домкрата, равном 725 мм. И полезном захвате комбайна 1,45м. передвижка каждого участка стана конвейера выполняется в 2 этапа. Домкрат размещается со стороны выработанного пространства таким образом, чтобы выдвинутый щиток его соприкасался непосредственно с бортом конвейера, а с противоположной стороны от конвейера на специальную опору корпуса домкрата устанавливается упорная стойка. Имея небольшой вес (13 кг.), домкрат легко переносится по лаве. Использование изгибающихся конвейеров в комплексе с домкратами ДГ-2 позволяет значительно сократить продолжительность подготовительной смены или ликвидировать ее совсем, улучшить организацию работ и резко повысить производительность труда.

Карта характеристик 2359


Передвижка

Конвейер изгибающийся

Домкрат гидравлический переносной

Шахта Лава

Русский

Статья

1964

Поле I

06346

02652

02212

01613

01154

04520

10347

03102

16225

01005

Поле II


Машина

Транспортная


Выработка

Горная


Поле III


03301

07402


01040

01314


Поле IV



Особенности реализации ИПС


Носителями информации для описанной системы являются перфорационные карты «Главмехсчета» ГОСТ 6198-64.

При выборе этого носителя информации учитывалась необходимость решения следующих задач:

возможность описания информационного документа минимум двенадцатью – пятнадцатью характеристиками;

использование для «записи» характеристик методов случайных кодов без их упорядочения;

«запись» дескрипторов (характеристик) родственных рядов в одной зоне;

возможность подсортировки рабочих массивов.

выбранный носитель информации должен содержать не только поисковые признаки документа (индекс УДК и характеристики), но и сам реферат или аннотацию;

простота выдачи копий документа.

«Запись» информации на поле перфокарты производится следующим образом. На площади с 1 по 8 колонку наносятся индексы основных таблиц универсальной десятичной классификации. Площадь с 9 по 4 колонку занята суперпозиционной «записью» кодовых значений характеристик документа. Для реферата (аннотации) отведено поле с 41 по 80 колонку.