Использование информационно-поисковых машин (ИПМ) приобретает огромную значимость при нахождении сведений, необходимых для решения задач оптимизации, анализа, принятия решений и управления практически во всех сферах деятельности [1]. В литературе [1–3] специалистами и рядовыми пользователями отмечается неудовлетворительное качество работы даже известных и широко распространённых ИПМ.
Рассмотрим основные методы, применяемые при поиске сведений в интернете.
Самый первый, простой и до сих пор распространённый – булева модель поиска. Она строится на теории множеств и математической логике. Её популярность связана прежде всего с простотой реализации, которая позволяет индексировать и выполнять поиск в больших документальных массивах. Эта модель формирует результаты поиска на основе факта присутствия тех или термов в документах. В 1983 г. Г. Солтоном (G. Salton), Э.А. Фоксом (E. Fox) и Г. Ву (H. Wu) [4] предложена расширенная булева модель, которая предполагала вычисление и использование весовых коэффициентов для каждого терма.
Ранее, в 1975 г., Г. Солтон предложил векторно-пространственную модель описания данных (Vector Space Model), которая послужила основой создания системы SMART [5]. В этой модели документу ставится в соответствие вектор в евклидовом пространстве, где каждому терму, использующемуся в документе, сопоставляется его весовое значение, которое определяется с помощью статистических методов. Запрос также представляется вектором в евклидовом пространстве термов. Соответствие документа запросу вычисляется как скалярное произведение их векторов.
В 1977 г. С.Э. Робертсон (S.E. Robertson) и К. Спарк-Джонс (K. Sparck-Jones) предложили вероятностную модель поиска [6]. В данной модели поиска вероятность того, что документ релевантен запросу, основывается на предположении, что термы запроса по-разному распределены среди релевантных и нерелевантных документов. При этом используются формулы расчета вероятности, базирующиеся на теореме Байеса.
На наш взгляд, векторные и вероятностные модели поиска информации хорошо проработаны и подошли к своему естественному пределу, особенно в больших динамических объёмах документов. Однако исторически сложилось так, что максимальную эффективность показали алгоритмы, уделяющие внимания не тексту, а самому документу. Эти алгоритмы работают не с информационным наполнением сайта, а с его свойствами как интернет-ресурса. Они могут быть основаны на двух правилах [7]:
1. Если документ А ссылается на документ Б, то можно считать, что автор А рекомендует Б. То есть ранг веб-страницы тем выше, чем больше других страниц ссылается на неё и чем эта страница популярнее.
2. Если документы А и Б связаны гиперссылками, то вероятнее тот факт, что их тематика родственна, чем обратное утверждение.
Другой подход, базирующийся на связях между веб-страницами, – представление текстовой коллекции как многосвязного графа, по которому осуществляются переходы. Описав вероятности переходов, можно прийти к Марковской вероятностной модели. Эта модель рассматривает граф как матрицу вероятностей переходов между документами, это позволяет определить наиболее значимые документы в корпусе с точки зрения их способности к посещаемости [7].
Одним из первых таких алгоритмов был PageRank, положенный в основу известнейшей сегодня ИПМ Google. Фактически PageRank является не алгоритмом поиска, а алгоритмом ранжирования результатов. Сам поиск можно осуществлять, например, классической булевой моделью, а порядок выдачи результатов определять с помощью PageRank.
Сегодня практически нет ни одной ИПМ, которая не пользовалась бы информацией, получаемой на основе анализа кода ресурса.
На заре веб-технологий появились и так называемые логические теги – инструменты, предназначенные для упрощения задачи появления сведений. Например, тег <abbr> указывает на то, что данное слово – аббревиатура, элемент <acronym> – на появление акронима, а тег <address> – на то, что в нём прописан адрес, и т.д. Для того чтобы подчеркнуть семантическую значимость тех или иных слов, можно объявить их ключевыми, а в тексте выделить тегом <strong>. Однако такие механизмы стали терять свои позиции. Можно выделить несколько причин этого:
– отсутствие системного подхода во внедрении логических тегов;
– огромные сложности, возникающие при внесении каких-либо изменений;
– злоупотребление логическими тегами для продвижения сайтов в рейтингах ИПМ.
Другая модель семантической разметки была предложена в 2004 году Ч. Тантеком, она базировалась на понятии микроформатов – протоколов разметки, использующих стандартные теги для придания объектам, в них содержащимся, некоторой семантической нагрузки. Этот подход позволяет решить проблему внедрения новых элементов в язык гипертекстовой разметки, позволяя всем пользователям, знакомым с концепцией микроформатов, создавать свои спецификации к семантической разметке, регистрируя их на сайте сообщества microformats.
По словам создателя технологии Ч. Тантека, микроформаты представляют собой тропу к семантическому вебу. Но существующие на сегодняшний день спецификации разметки позволяют лишь упростить обработку некоторой информации. Так, например, микроформат hCard, использующийся для публикации контактной информации людей, компаний, организаций и адресов и призванный на более высоком уровне заменить логический тег <address>, даёт возможность ИПМ в автоматическом режиме корректно обрабатывать «визитные карточки» людей и организаций. Но для комплексного семантического анализа произвольных текстовых сведений необходимо совершенно новое семейство микроформатов.
Решение задачи семантического поиска не может быть осуществлено без технологии глубинного анализа текстов их смысла и представления его в базах знаний на основе методов искусственного интеллекта.
Это семейство технологий объединено общим названием Text Mining. Разрабатываемые на основе статистического и лингвистического анализа, методов искусственного интеллекта, эти технологии предназначены для проведения смыслового анализа.
Основное назначение Text Mining – выбирать из текстов наиболее ключевую и значимую информацию для пользователей [8, 9].
Рассмотрим основные задачи, решаемые в рамках технологий Text Mining:
– извлечение из документа элементов или признаков, которые могут использоваться в качестве ключевых слов, метаданных, аннотаций;
– классификация и кластеризация документов;
– автоматическое выявление прежде неизвестных связей в уже имеющихся данных;
– извлечение знаний из текстовых сведений;
– автоматическое реферирование текстов;
– выявление феноменов – понятий и фактов;
– создание принципиально нового вида поиска, который в отличие известных подходов устанавливает не формальную релевантность – соответствие результатов поиска запросу, а позволяет осуществлять поиск с помощью смысла текстов, то есть искать сведения на основе пертинентности – соответствия информационной потребности.
Для глубокого семантического анализа текстов вполне справедливо определение, данное для предшествующего Text Mining семейства технологий Data Mining Г. Пятецким-Шапиро из GTE Labs: «Процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1].
Text Mining − относительно молодые технологии, появившиеся в девяностых годах ХХ века как направление анализа неструктурированных текстов. Технологии Text Mining сразу же взяли на вооружение такие методы Data Mining, как классификация или кластеризация. Современные системы на основе Text Mining используются для управления знаниями, выявления шаблонов в текстах, автоматического «проталкивания» и распределения информации на основе информационной потребности пользователя.
Однако при организации семантического анализа текстов встаёт ряд проблем несемантического характера, но препятствующих глубинному анализу текстовых сведений.
С нашей точки зрения, задача микроформатов состоит в том, чтобы сделать веб-страницы максимально удобными для семантического анализа методами Text Mining.
Подойдём системно к вопросу выявления и решения этих проблем. Начнём с макроуровня. На этом этапе рассмотрения веб-страница в общем виде представляет собой множество объектов: заголовки, текстовые сведения, рисунки, таблицы, указание на источники, на классификаторов информации, например, УДК. Все эти элементы так или иначе являются содержимым тегов-контейнеров. Необходимо понимать, что семантическое содержание текста зависит от данных нетекстовых объектов, поэтому важно предусмотреть систему именования объекта. Это некий параметр, который указывается в открывающем теге-контейнере именуемой информации, и ему присваивается имя объекта с тем, чтобы мы всегда смогли обратиться к данному объекту. Назовём этот параметр smf_name.
Тип элемента (рисунок, таблица, формула, абзац, заголовок или же просто выделенный фрагмент) легко определяется с помощью тега-контейнера и его параметров.
Более низкий уровень рассмотрения текстовых сведений – это множество предложений. Для того чтобы произвести семантический анализ, необходимо осуществить синтаксический разбор предложений и словосочетаний. Эта задача решена большинством систем, работающих с текстовой информацией. Однако встречаются случаи, когда данные алгоритмы не в состоянии автоматически определить взаимосвязь слов в предложении или словосочетании (программы Office в этом случае предполагают, что предложение не согласовано). Это может происходить из-за несовершенства алгоритмов и сложности русского языка, из-за появления неизвестных системе слов, терминов и символов, которые человек трактует как подлежащее, сказуемое или другие члены предложения, а машина это сделать не в состоянии. Для решения данной проблемы необходимо семейство микроформатов, которое позволит недвусмысленно задать роли слов и других элементов в предложении, а также связи между ними. Естественно, нет необходимости для каждого слова текста определять его роль и связи. Возникает необходимость разработки системы, которая позволит выявить предложения и словосочетания, нуждающиеся в дополнительной синтаксической разметке.
На этом этапе необходимо уделить внимание таким элементам, как коллокации [10–11]. Существует несколько определений понятия коллокации. В корпусной лингвистике под коллокацией чаще всего понимают последовательность слов, которые встречаются вместе чаще, чем можно было бы ожидать исходя из случайности распределения [10]. Другое определение говорит о том, что коллокации отражают ограничения совместного использования слов, например, указывают, какие предлоги употребляются с данным глаголом [10]. Коллокация – статистически устойчивое сочетание в тексте. По степени устойчивости можно выделить свободные сочетания, связанные сочетания, идиомы [11].
Необходимо с помощью технологии микроформатов дать пользователю возможность выделить коллокации в тексте. Естественно, сделать это самому крайне сложно. Однако существует множество разработанных методов выявления коллокаций. Если на этапе создания веб-публикации выявить пары слов с подозрением на коллокации и предложить пользователю определить данные словосочетания, задача становится решаемой.
Спустимся теперь на уровень слов, из которых состоят текстовые сведения. На этом этапе рассмотрения основными проблемами являются синонимия и омонимия. Кроме того, неудобство при семантическом анализе представляют неизвестные слова. Предложим полную классификацию неизвестных слов. Неизвестное слово может быть либо термином, либо именем собственным. Под терминами будем понимать неизвестные слова, аббревиатуры и прочее. Для обработки терминов удобно использовать микроданные itemscope, которые позволяют дать определение термину и впоследствии извлечь из этого определения информацию. Если мы хотим подчеркнуть, что это аббревиатура, то в качестве контейнера можно использовать тег <abbr>. Для разметки имён собственных необходимо указать на термин, определяющий множество, к которому принадлежит объект, а также на некоторую именованную область, где описываются его отличительные черты.
В качестве классического примера использования данных микроформатов рассмотрим отрывок предложения: «…F позволяет найти значение…». Его разметка будет иметь вид «… <span class = smf smf_rol = ”podlegachie” smf_type = “name = «function» URL = «http//…» smf_name = ”form_1”> F </span> позволяет найти значение…». Поясним пример. Задан класс семантической разметки «class = smf», параметр smf_rol указывает на роль объекта в предложении (в данном случае «подлежащее») и также при необходимости может указать на связь между словами в предложении или словосочетании. Параметр smf_type содержит необходимую информацию для определения класса элементов, к которому принадлежит размеченная сущность; smf_name – параметр, указывающий на имя объекта, который задаёт выделенный фрагмент. В данном случае этот объект – формулы, вставленные в текст картинкой. Задание формул как вычислимых элементов также является важной задачей семантической разметки веб-страниц.
Дополнительная разметка: причинно-следственные связи и спец-символы.
Предложенная разметка позволит сделать веб-страницы прозрачными для глубокого семантического анализа. Веб-разработчику будет достаточно воспользоваться открытым ПО, которое поможет ему найти элементы, подлежащие разметке. После этой процедуры программное обеспечение сможет без труда произвести синтаксический разбор и определить каждое слово единственным образом. С нашей точки зрения именно этот подход позволит микроформатам проложить тропу для семантических методов контент-анализа (Text Mining) и стать настоящей дорогой в долгожданный семантический веб.
Рецензенты:
Сумин В.И., д.т.н., . профессор кафедры управления и информационно-технического обеспечения, Воронежский институт ФСИН России, г. Воронеж;
Сысоев В.А., д.т.н., профессор кафедры прикладной информатики, Тамбовский филиал Московского государственного университета культуры и искусств; г. Тамбов.
Работа поступила в редакцию 11.12.2012.