Организация быстрого и точного поиска информации в сети Интернет – одна из наиболее активно развивающихся областей теории информационного поиска. В качестве инструмента информационного поиска наибольшей популярностью пользуются информационно-поисковые системы (ИПС), например, Google, Yandex, Rambler и др.
В информационно-поисковых системах поиск документов осуществляется по сформулированному пользователем запросу. Запрос строится на информационно-поисковом языке. Запрос в информационно-поисковых системах Интернет строится на языке ключевых слов, который может содержать одно слово или словосочетание. Современные ИПС предлагают возможность расширенного поиска, например, использование логических операторов «и», «или», обязательного присутствия слов или отсутствия некоторых частей речи (предлоги, союзы и т.п.).
Различные ИПС сети Интернет имеют свои преимущества и недостатки. Для того чтобы оценить качество информации, выдаваемой различными ИПС, необходимо определить характеристики информационного поиска. Основными параметрами оценки качества информационного поиска являются релевантность, пертинентность, точность и полнота.
Релевантность – соответствие полученной информации информационному запросу [2].
Информационно–поисковые системы по релевантности сортируют все найденные документы так, чтобы все более релевантные страницы стояли выше, чем менее релевантные.
Пертинентность – соответствие полученной информации информационной потребности [2].
Пертинентность определяется субъективным восприятием пользователя: в какой степени документ удовлетворяет его информационную потребность. Информационная потребность пользователя может быть выражена в формализованном запросе с той или иной степенью полноты и точности [4]. Пертинентность информационного поиска означает, что отобранные релевантные запросу документы соответствуют специальности пользователя, области его интересов и, в идеальном случае, не содержат публикации из других предметных областей.
Понятие релевантность уже, чем пертинентность. Получается, что документ, выданный ИПС, может быть релевантен запросу, но не удовлетворять информационную потребность пользователя. Причиной тому является многозначность и недостаточность естественного языка. Как правило, пользователь составляет запрос на естественном языке, не учитывая вероятности наличия у одного понятия нескольких значений. Также следует учитывать, что пользователь осуществляет именно тематический поиск, т.е. его интересуют конкретные сведения в какой–либо области знания.
В основе технологии тематического поиска лежит использование иерархических классификационных систем. В таких системах вся область знаний делится на крупные предметные области (классы), которые, в свою очередь, подразделяются на более мелкие (подклассы), подклассы – на еще более мелкие и т. д. Каждой области знания и подобласти присваивается свой индекс, называемый классификационным. Возникает разветвленное древо знаний, позволяющее классифицировать все источники информации. Примерами таких систем являются международная универсальная десятичная классификация (УДК), международная десятичная классификация М. Дьюи (ДКД), национальная библиотечно–библиографическая классификация (ББК) и др. Иерархические классификации хорошо зарекомендовали себя в библиотечной практике и уже активно используются при поиске в электронных каталогах. Установлено, что организация документов в базах данных по иерархическому принципу позволяет намного повысить показатели качества информационного поиска. Но в базах данных с неопределенным количеством документов, какими являются ИПС Интернет, отбор документов по классификационному принципу не реализуется, и проблема осуществления полноценного тематического поиска в них до сих пор не решена. На практике получается, что поток информации растет, а ИПС просто заваливает пользователя тысячами и миллионами релевантных документов.
Существуют еще две характеристики информационного поиска, более полно раскрывающие релевантность.
Точность, или коэффициент точности – отношение числа найденных релевантных документов к общему числу документов в выдаче.
Полнота, или коэффициент полноты – отношение числа найденных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве [2].
Полнота показывает, насколько хорошо поисковая система находит то, что нужно пользователю; точность показывает, насколько хорошо поисковая система отфильтровывает то, что пользователю не нужно [4].
Одним из средств «борьбы» за точность и пертинентность информационного поиска является систематизация публикаций. Кроме того, повышению полноты и точности поиска способствует технология построения запросов, основанная на соответствующей систематизации предметных областей [6].
Рассматривая далее параметры качества информационного поиска, можно выделить еще несколько характеристик. Это и информационная емкость, и достоверность, и понятность, и множество других.
Целью настоящего исследования является определение новых методов оценки пертинентности информационного поиска в ИПС глобальной сети.
Одним из перспективных направлений исследований, касающихся эффективности информационного поиска, является применение онтологий. Онтология предметных областей позволяет выразить смысловое содержание терминов поискового запроса. Сформулируем, что же подразумевается под понятием онтология.
Термин «онтология» ввел в оборот информатик и американский ученый T. Грубер в 1993 г., заимствовав его из классической философии [5]. В самом общем смысле онтология включает словарь терминов моделируемой предметной области и связей между ними. Онтология – это явная формальная спецификация концептуализации, разделяемая некоторым сообществом агентов [7]. Под концептуализацией здесь понимается знание о предметной области, т.е. фиксация понятий, которые классифицируют объекты этой предметной области и связи между ними. В качестве агентов выступают человек или программная система. Получается, что с помощью онтологии терминов можно осуществить смысловые связи между понятиями поискового запроса. Следовательно, применение онтологии в том или ином виде позволяет повысить пертинентность информационного поиска.
В настоящее время исследования по выявлению методик повышения качества информационного поиска с помощью онтологии ведутся по двум направлениям – применение семантических технологий в сети Интернет и электронных библиотеках. В электронных библиотеках уже активно используются методы и средства онтологического моделирования пространств библиотечных знаний. В рамках этого направления уже много лет ведутся исследования в области анализа семантики связей между данными, по которым осуществляется поиск. Системным обобщением этих результатов стало появление комплекса онтологий SPAR, а также появление семантического раздела в модели научных данных CERIF. В этом направлении ведется серьезная работа и в рамках консорциума W3C, где в проекте SKOS (Simple Knowledge Organization System) предлагается модель связывания научных данных, адаптированная для компьютерной обработки. В частности, SKOS включает контролируемые структурные словари семантических значений для связывания научных данных [3].
Резко возросло практическое применение онтологий в сети Интернет. Например, онтологии используются в Google для классификации веб–сайтов. Компания Amazon разработала онтологию товаров и услуг с их характеристиками. Другой пример – онтология UNSPSC (United Nations Standard Products and Services Code – система ООН стандартных кодов для товаров и услуг) [7].
Онтологии применяются во многих областях знания, например, программная инженерия, электронное обучение, бизнес–информатика и др. Также огромную пользу будут иметь разработки на основе онтологий для осуществления поиска в массиве документов ИПС.
Онтологии строятся как описания, сделанные в (формальных) языках представления знаний. Поэтому как формальные описания они должны использовать формальные представления понятий. В различных информационно–поисковых системах в качестве таких формальных языков выступают информационно–поисковые языки (ИПЯ).
Для отражения смысловых связей между понятиями в ИПЯ используются парадигматические отношения. Под парадигматическими отношениями будем понимать объективно существующие смысловые отношения между лексическими единицами ИПЯ, которые устанавливаются и фиксируются в словаре исходя из потребностей информационного поиска.
Известно, что для осуществления поиска документов с учетом парадигматических отношений наиболее эффективным средством является тезаурус. В тезаурусе термины иерархически связаны между собой парадигматическими отношениями типа синонимия, род – вид, целое – часть, ассоциация. В качестве терминов выступают понятия – слова или словосочетания. По современным представлениям именно понятия являются наиболее информативными и наиболее устойчивыми единицами смысла.
По существу тезаурус представляет собой словарь. Однако главное отличием тезауруса от словарей, в том числе толковых, состоит в том, что в нем смысл термина представляется главным образом посредством соотнесения его с другими терминами путем установления между ним и этими терминами семантических отношений [1].
Таким образом, при проведении исследований по оценке пертинентности результатов информационного поиска необходимо выявление понятийной структуры запросов. Под такой структурой запроса будем понимать совокупность понятий, выявленных в предметной области знаний и связанных между собой парадигматическими отношениями. Между тем выявленную понятийную структуру запроса, состоящую из текстовых форм наименований понятий, необходимо привести к формализованной форме ее представления, т.е. осуществить нормализацию слов и словосочетаний. Такое приведение предполагается выполнять по принципу, описанному в ГОСТ 7.25–2001 [1].
Обычно под нормализованной формой слова понимается такая его форма, которая традиционно указывается в словарях. Например, термины должны быть выражены именами существительными и именными словосочетаниями в формах единственного или множественного числа в соответствии с традицией лексикографических источников. Формы прилагательных и причастий следует приводить к именительному падежу. Прилагательные и причастия в единственном числе приводят к форме мужского рода.
Необходимо отметить, что нормализация слов/словосочетаний может выполняться с различной степенью смысловой общности – на уровне словоизменения или на уровне словообразования. Связи между терминами выражаются с помощью ссылок: с – синоним, вр – выше род, вц – выше целое, нв – ниже вид, нч – ниже часть, а – ассоциация. Как правило, вместе с ведущим словом, стоящим в начале, приводятся понятия, связанные с ним соответствующими парадигматическими отношениями. Например, запрос будет иметь вид:
Заключение
В настоящее время уже нашли применение тезаурусы по различным областям знания. Они используются в электронных каталогах библиотек и небольших ИПС, позволяющих производить поиск в массиве документов узкой области знания. Для информационного поиска в ИПС Интернет требуется такой тезаурус, который охватывал бы терминосистему всех областей знаний и деятельности человечества. Концептуальная схема такого тезауруса должна иметь вид онтологии, т.е. представлять классы понятий и парадигматические отношения, связывающие объекты этих классов между собой.
На наш взгляд, организация поиска в ИПС Интернет, автоматически учитывающих смысловые связи между понятиями, позволит существенно повысить пертинентность выдаваемых документов.
Работа выполнена при финансовой поддержке Белгородского государственного института искусств и культуры (проект № ВКГ-1412-а).
Рецензенты:
Блажевич С.В., д.ф.-м.н., доцент, профессор кафедры информатики и вычислительной техники, ФГАОУ ВПО «Белгородский государственный национальный исследовательский университет», г. Белгород;
Логачев К.И., д.т.н., профессор, профессор кафедры высшей математики, ФГАОУ ВПО «Белгородский государственный технологический университет имени В.Г. Шухова», г. Белгород.
Работа поступила в редакцию 04.06.2014.
Библиографическая ссылка
Савотченко С.Е., Савотченко С.Е., Проскурина Е.А., Проскурина Е.А. СОВРЕМЕННЫЕ АСПЕКТЫ ПОВЫШЕНИЯ ПЕРТИНЕНТНОСТИ РЕЗУЛЬТАТОВ ИНФОРМАЦИОННОГО ПОИСКА В ГЛОБАЛЬНОЙ СЕТИ // Фундаментальные исследования. – 2014. – № 9-1. – С. 46-49;URL: https://fundamental-research.ru/ru/article/view?id=34639 (дата обращения: 15.10.2024).