Одной из задач, решаемых при построении семантической сети текстового документа, является задача определения значимости терминов текста, которые влияют на определение его смысла. При решении данной задачи необходимо учесть множество факторов, влияние которых на значимость терминов различно и не всегда можно определить закономерности этого влияния. Под понятием «значимость» будем понимать, во-первых, «наличие значения, смысла», и, во-вторых, как принято в семиотике и языкознании, отношение знака к другим знакам в рамках языковой системы [1]. Определение значимости неразрывно связано с критериями значимости, роль которых сводится к обнаружению и установлению самого факта наличия значения или смысла термина, который здесь играет роль знака. К основным критериям значимости можно отнести:
-
частоту встречаемости термина в документе: чем чаще встречается термин в документе, тем больше отношений он образует с другими терминами;
-
категорию текста, в которую входит термин: термины тематической цепочки текста будут более значимы, чем термины текстовой модальности;
-
содержательно-смысловой блок, в котором термин встречается: термин, который встретился в основном блоке, будет более полезен для отражения смысла, чем термин, который встретился во вспомогательном блоке.
Для количественного представления значимости терминов обычно используются весовые коэффициенты. Весовой коэффициент - числовой коэффициент, параметр, отражающий значимость, относительную важность, «вес» данного фактора, показателя в сравнении с другими факторами, оказывающими влияние на изучаемый процесс [2]. Вычислению весовых коэффициентов терминов предшествуют:
а) оценка степени влияния фактора, который характеризует каждый критерий;
б) определение интегрального показателя весового коэффициента термина.
Рассмотрим определение степени влияния фактора, характеризующего каждый из вышеназванных критериев, на весовой коэффициент термина.
Частота встречаемости термина в документе. Статистический показатель термина документа невозможно использовать без предварительной обработки. Это связано с тем, что значение частоты встречаемости термина, который чаще других был употреблен в документе, абсолютно не влияет на его значимость. Бóльшее значение будет иметь ранг частоты, который позволяет уравнивать значимости самых встречаемых терминов любых текстов и одновременно распределяет значимости терминов внутри одного текста. При этом термины с одинаковой частотой встречаемости, имея одинаковый ранг частоты, будут одинаково значимы для передачи смысла. Для учета частоты встречаемости при определении весового коэффициента термина предлагаем использовать формулу (1).
w1 = 1 - logmax(r)r, (1)
где r - ранг частоты термина.
Она позволяет получить нормализованное значение w1 за счет вычисления логарифмической функции с основанием, равным максимальному рангу частоты. Вычитание из единицы позволяет терминам с наибольшим рангом частоты иметь большее значение w1, а для терминов с максимальным рангом, т.е. которые редко используются в тексте, этот показатель будет равен нулю, что означает его неважность для отражения смысла текста.
Категория текста. Это одна из существенных характеристик текста, представляющая собой отражение определенной части общетекстового смысла различными языковыми, речевыми и собственно текстовыми (композитивными) средствами. Категория текста имеет знаковую природу, план содержания такого знака - это единый текстовой смысл (например, целостность, тема, тональность, пространство, проспекция), а план выражения - функционально ориентированная типовая композиция разноуровневых языковых средств [3].
Категория текста является единицей анализа, несущей в себе основные свойства целого, а именно целенаправленность и композитивность. Каждая текстовая категория воплощает в себе отдельную смысловую линию текста, выраженную группой языковых средств, особым образом организованной в относительную внутритекстовую целостность. Совокупность категорий текста, дополняющих друг друга и переплетающихся между собой, создают текст в качестве коммуникативной системы.
В соответствии с категориально-текстовой концепцией, основанной на принципе отражательности, категория текста как смысловая часть текста отражает один из компонентов коммуникативного акта, в число которых входит предмет речи; субъект(-ы) речи, то есть автор(-ы) текста в целом; оценочная точка зрения субъекта; его эмоционально-психологический настрой; пространство и время как неотъемлемые атрибуты ситуации, в которой порождается текст; адресат общения. Соответственно выделяются текстовые категории темы, субъекта (авторизации), оценочности, тональности (текстовой модальности), текстового пространства и времени, адресата. В силу объективно дробного выражения каждой категории в тексте к ним добавляется структурная текстовая категория композиции. На наш взгляд, именно текстовые категории темы и композиции являются в настоящий момент наиболее важными для определения значимости терминов, и, кроме того, более прозрачными для исследования.
Тема - существенный и необходимый признак всякого текста [4]. Это экстралингвистический фактор, который входит в ядро текста и определяет его структуру. Тема выражается в тематических группах, которые составляют тематическое поле тематического единства. Тематическую группу научного текста, в частности научной статьи, можно сформировать, выделив термины из заголовка и подзаголовков. При этом если частота встречаемости выделенных терминов будет высокой в тексте, то их с полной уверенностью можно включить в текстовую категорию темы. Тогда вклад в значение весового коэффициента термина можно принять равным 1, если термин отражает тему текста, и 0 в противном случае:
(2)
Говоря о второй текстовой категории, выбранной в работе, то композиция текста представляет собой единство внутренней структуры содержания, внешнего его деления на части и сами эти части. Для выделения такой структуры можно использовать выделение формальных текстовых признаков.
Содержательно-смысловой блок. Текстовая категория композиции соотносится с понятием содержательно-смысловой блок. Научный текст состоит из логически выделенных содержательных блоков: блок постановки и понимания проблемы (Проблема), блок изучения опыта предшественников (Опыт), блок изложения варианта решения проблемы, доказательства и аргументов (Решение), блок обобщения полученных данных и подведения итогов (Итог). Для идентификации каждого блока применяется метод выделения формальных текстовых признаков, которые с высокой вероятностью используются в конкретном блоке. Кроме вышеперечисленных блоков в текстах можно выделить, так называемые, дополнительные блоки, которые играют большую роль для отражения коммуникативной, аспектной, семантической, информативной, функционально-смысловой структуры научного текста: для описания общеизвестного и доказанного факта (Факт); для выражения убежденности автора (Убежденность); для обеспечения межфразовой связи (Коннектор); для отражения информации, противоположной претексту (Противоположность); для отражения информации о часто/редко повторяющихся событиях (Повторяемость); для отражения развития информации (Развитие); для уточнения информации (Уточнение). Для достаточно небольших текстов, которыми являются научные статьи, наличие дополнительных блоков является не характерным: некоторые блоки могут отсутствовать, некоторые блоки могут быть очень маленькими и содержать в себе только 1-2 термина. В связи с этим на данном этапе работы будут рассмотрены термины четырех основных блоков: Проблема, Опыт, Решение, Итог. Очевидно, что для передачи основного замысла научной статьи существенную роль играют блоки Проблема, Решение и Итог. При этом блок Решение составляет зачастую большую половину текста. Это видно по результатам исследования корпуса научных статей объемом 100 единиц по различным областям знаний [6]. На этот же факт указывает существующее большое число маркеров и индикаторов, характерных для рассматриваемого блока. В связи со сказанным весовые коэффициенты терминов блока примем равными согласно (3).
(3)
Исследование научных текстов статей позволило выделить наиболее характерные индикаторы и маркеры каждого содержательно-смыслового блока. Если термин используется в предложении, содержащем формальный признак того или иного блока, то его вес корректируется на соответствующую величину. При этом если термин встретился в более, чем одном блоке, его вес изменяется на сумму соответствующих величин. Частота встречаемости термина в пределах одного блока здесь не играет роли, поскольку этот показатель был учтен в формуле (1).
Вычисление интегрального весового коэффициента термина. Бесспорно, что вышеуказанные три критерия значимости термина по-разному влияют на значение его весового коэффициента. Тогда интегральный весовой коэффициент может быть рассчитан по формуле.
(4)
где ki - весовой коэффициент критерия i, i = 1..3.
Для определения весовых коэффициентов критериев воспользуемся процедурой взвешивания, предложенной в работе [5]. Для реализации данной процедуры необходимо осуществить две операции: вычислить критериальные индексы qi, на основе которых затем определяются весовые коэффициенты ki для всех критериев. Исходной информацией для определения степени важности каждого критерия значимости термина служит следующая вопросная конструкция: насколько важен i-й критерий для определения значимости термина текста? Формат возможных ответов может быть представлен следующим множеством:
-
достаточно важен;
-
скорее важен, чем не важен;
-
скорее не важен, чем важен;
-
совершенно не важен;
-
затрудняюсь ответить.
Тогда индекс важности каждого критерия может быть вычислен по формуле.
(5)
где i - индекс критерия; j - индекс варианта ответа респондентов на вопрос относительно важности i-го критерия; n - общее число предусмотренных вариантов ответа на вопрос (в нашем случае 5); yij - доля респондентов (в процентах), указавших j-й вариант ответа для i-го критерия; ai - весовой коэффициент j-го варианта ответа (для всех критериев используется единая шкала весовых коэффициентов; 0 ≤ ai ≤ 1); p - нормирующий коэффициент, величина которого определяется в ходе вычислительных экспериментов. Для показателя a система весовых коэффициентов для всех критериев одинакова: a1 = 1,0; a2 = 0,6; a3 = 0,4; a4 = 0. Их значения интерпретируются как степени принадлежности рассматриваемого критерия к нечеткому множеству «важный критерий для определения значимости термина текста».
Идентификация индексов (5) позволяет установить иерархию критериев. Для последующего включения всех критериев в интегральный весовой коэффициент необходимо от величин qi перейти к весовым коэффициентам важности каждого критерия, которые вычисляются по формуле.
(6)
где m - общее число критериев.
Процедура (6) позволяет пронормировать все критерии таким образом, что выполняется классическое балансовое условие.
(7)
Имея оценки критериальных весовых коэффициентов wi и коэффициентов их важности ki, можно рассчитать интегральный весовой коэффициент значимости термина W.
Определение коэффициентов важности критериев. В рамках выполнения вычислительных экспериментов была составлена анкета, включающая вопросы:
-
Насколько важен критерий «Частота встречаемости термина в научном тексте» для определения значимости термина текста?
-
Насколько важен критерий «Термин отражает тему научного текста» для определения значимости термина текста?
-
Насколько важен критерий «Содержательно-смысловой блок» для определения значимости термина текста?
Формат возможных ответов был представлен выше.
Рассчитанные по формуле (5) индексы важности каждого критерия соответственно равны q1 = 0,675; q2 = 0,887; q3 = 0,625.
Вычислив по формуле (6) весовые коэффициенты важности критериев, находим k1 = 0,309; k2 = 0,406; k3 = 0,285.
Вычислительные эксперименты. Рассмотрим на примере взвешивание терминов семантической сети научного текста. Для этого выберем одну статью «Технология многомерных баз данных» из коллекции статей по предметной области «Базы данных». На рисунке приведен фрагмент семантической сети рассматриваемого текста.
Фрагмент семантической сети
Для терминов данного фрагмента в табл. 1 приведены частота их встречаемости, ранг частоты и весовые коэффициенты w1 первого критерия значимости, рассчитанные по формуле (1). В последнем столбце этой таблицы приведены весовые коэффициенты w2 второго критерия значимости термина, определенные по формуле (2).
Для расчета весового коэффициента третьего критерия значимости необходимо идентифицировать содержательно-смысловые блоки текста по формальным текстовым признакам, характерным для каждого блока. Будем выделять предложения с характерными индикаторами и маркерами, и в отношении терминов этих предложений будут задаваться весовые коэффициенты по третьему критерию в соответствии с формулой (3), представленные в последнем столбце табл. 1.
По формуле (4) с учетом вычисленных весовых коэффициентов важности критериев k1 = 0,309; k2 = 0,406; k3 = 0,285 находим значения интегральных весовых коэффициентов терминов (табл. 2).
Таблица 1
Характеристики и весовые коэффициенты терминов
Термин |
Частота встречаемости |
Ранг частоты |
Весовые коэффициенты w1 |
Весовые коэффициенты w2 |
Весовые коэффициенты w3 |
Данные |
31 |
1 |
1,000 |
0 |
0,30 |
Многомерные базы данных |
9 |
5 |
0,373 |
1 |
0,30 |
Анализ данных |
7 |
7 |
0,241 |
0 |
0,25 |
Многомерные кубы |
6 |
8 |
0,189 |
1 |
0,25 |
Многомерная модель данных |
4 |
10 |
0,102 |
0 |
0,15 |
Область применения |
3 |
11 |
0,065 |
0 |
0,30 |
Проблематика |
1 |
13 |
0,000 |
0 |
0,30 |
Таблица 2
Результаты определения интегральных весовых коэффициентов W
Термин |
Весовые коэффициенты W |
Многомерные базы данных |
0,6068 |
Многомерные кубы |
0,5357 |
Данные |
0,3945 |
Анализ данных |
0,1457 |
Область применения |
0,1056 |
Проблематика |
0,0855 |
Многомерная модель данных |
0,0743 |
Данные в табл. 2 отсортированы по убыванию значений интегральных весовых коэффициентов. Термин «Многомерные базы данных», имея пятый ранг частоты, встречаясь в названии статьи и относясь к содержательно-смысловому блоку «Итог», получил наибольшее значение весового коэффициента, что было ожидаемо. Анализируя другие термины, мы также видим проявление закономерностей, соответствующих выдвинутым предположениям.
Заключение
Полученные результаты являются достаточно правдоподобными и отражают значимость терминов научного текста для определения его смысла. В результате выполненной работы предлагается модифицировать формулу (5), так как в рамках данной задачи можно пренебречь степенью (1 - pyin), поскольку погрешность вычисления, оцененная в сотых долях, вполне приемлема и практически не влияет на результат дальнейших вычислений. В перспективе требуется обосновать выбор системы весовых коэффициентов вариантов ответов при обработке результатов экспертного опроса, применяя методы нечеткой логики.
Рецензенты:
-
Найханова Л.В., д.т.н, профессор, заведующий кафедрой систем информатики Восточно-Сибирского государственного университета технологий и управления, г. Улан-Удэ;
-
Ширапов Д.-Д.Ш., д.ф.-м.н., профессор, заведующий кафедрой электронно-вычислительных систем Восточно-Сибирского государственного университета технологий и управления, г. Улан-Удэ.
Работа поступила в редакцию 05.06.2012.