Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

Долматов М.А., Сатунина А.Е.

В настоящий момент наиболее распространенным способом выражения информационной потребности пользователя при обращении к поисковым машинам Интернета являются запросы из ключевых слов. Формулировка информационной потребности на языке запросов - наиболее сложный и трудно формализуемый этап поиска.

Одним из способов повышения качества, а также удобства поиска являются автоматические и полуавтоматические операции с запросами (модификация, расширение, изменение весов терминов). Наряду с методами, основанными на анализе коллекции документов или той ее части, которая выдается в ответ на первичный запрос (например, обратная связь по релевантности), существуют методы на основе специальных словарей - тезаурусов. Электронный тезаурус - это словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами. Тезаурусы могут быть построены автоматически на основе анализа совместной встречаемости слов, а также вручную.

Традиционно тезаурусы играли и продолжа­ют играть важную роль в организации инфор­мационного поиска. До появления и широкого распространения Интернета язык индексирования, и, следовательно, тезаурус служили для обеспечения возможности непротиворечивого представления предметного содержания документа, согласования словаря пользователя информационной системы и словаря индексатора и обеспечения пользователя возможностью выбора поисковой стратегии в целях достижения большей полноты выдачи или более высокой точности поиска - в зависимости от обстоятельств [1].

Несмотря на вполне очевидные преимущества в использовании тезауруса, с развитием полнотекстовых баз данных сложилось мнение, что поддержка информационного поиска с помощью контролируемых словарей нерентабельна, и постепенно они почти исчезли из употребления. Однако в последние годы практика показала, что полнотекстовый поиск не столь эффективен, как поиск с использованием даже простейшего языка индексирования, и внимание профессионалов вновь обратилось к тезаурусам.

Хотя на сегодняшний день во многих странах, прежде всего, в США существует множество организаций, занимающихся теоретической и практической стороной построения тезаурусов [3], ни одна из глобальных сетевых поисковых машин не интегрирована с универсальным информационно-поисковым тезаурусом, прежде всего, в силу трудностей, сопряженных с его построением и ведением. Вместо этого поисковые машины постоянно дополняются отдельными автоматизированными средствами расширения или сужения области поиска и контроля над синонимией и омографией (это, например, опция повторного поиска в AltaVista или концептуальный поиск в Excite) [5]. А это означает, что как для рядового пользователя, так и для специалиста, занимающегося специфической научной деятельностью, не решена проблема выбора поисковой стратегии и расширения запроса. Любопытное решение было предложено компанией Quintura, выпустившей оболочку, позволяющую визуальными средствами моделировать запрос к наиболее популярным поисковым системам в виде семантической сети.

В Российском Государственном Гуманитарном Университете в качестве решения существующих проблем при поиске в Интернет доктором технических наук профессором Д. Г. Лахути было предложено создание интуитивно понятного, расширяемого средства для создания индивидуальных тезаурусов, которое бы позволило пользователю самому в интерактивном режиме наполнять его при решении поисковых задач и использовать впоследствии. Архитектура такого приложения должна быть интегрирована браузером и с операционной системой, что обеспечит без лишних манипуляций и траты времени обновление содержания словаря в режиме on-line. Таким образом общая архитектура предлагаемого продукта включает следующие компоненты: автономное приложение; базу знаний тезауруса, плагин браузера. Автономное приложение включает пользовательский интерфейс и собственно приложение, позволяющее управлять содержанием базы знаний тезауруса; база знаний тезауруса включает множество дескрипторов (на различных естественных языках) и схему отношений между ними; плагин браузера должн позволять быстрое автоматическое добавление терминов в тезаурус, отображать иерерхию дескрипторов, осуществлять быстрый поиск и навигацию.

Индивидуальный тезаурус может быть ориентирован на представление любой области знаний и на естественном языке пользователя. При этом должна обеспечиваться возможность создания сколь угодно глубокого (в рамках разумного, конечно) дерева признаков, использования перекрестных ссылок для выражения импликативных и ассоциативных связей. Таким образом, это позволит создавать неограниченное количество подтезаурусов, уров­ней иерархии в подтезаурусе и связей для каждого тер­мина. В удобной для неискушенного в деле построения словарей пользователя полуавтоматической форме появится возможность организовывать выявление и исправление конфликтующих от­ношений, автоматическое порождение обратных отно­шений, установление между дескрипторами отношений синонимии, иерархий и прочих, согласно стандарту ANSI/NTSO, а также отношений других видов, необходимых для пользо­вателя. Кроме этого, обеспечивается быстрый поиск по ключевым словам и кате­гориям. Построенный словарь можно также будет экспортировать в распространенном в настоящее время .xml-формате - для обмена между пользователями.

Сама идея не является новой, в частности, попытки создания индивидуальных тезаурусов отмечаются специалистами Американского общества индексаторов, однако ни средства по созданию таких словарей, ни сами полученные таким кустарным способом тезаурусы должного распространения не получили. А потому задача создания описанного выше средства для разработки тезаурусов является актуальной. Практическую же ценность этого проекта покажет время.

СПИСОК ЛИТЕРАТУРЫ

  1. Ланкастер Ф.У. Информационно-поисковые системы: Пер. с англ. - М: "Мир", 1972.
  2. Рубашкин В.Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий // НТИ. Сер. 2, Информ. процессы и системы / ВИНИТИ. - М., 2000. - № 7. - С. 1-9.
  3. Information About Indexing. The American Society of Indexers. // http://www.asindexing.org/site/asiinfo.shtml
  4. Branka Kosovac. Internet/Intranet and Thesauri. National Research Council Canada, Institute for Research in Construction, 1997. http://irc.nrc-cnrc.gc.ca/thesaurus/roofing/report_b.html
  5. Жмайло С.В. К разработке современных информационно-поисковых тезаурусов // НТИ. Сер. 1, Документальные источники информации / ВИНИТИ - 2004. - № 1. - С. 23-31