В [1, 2] нами введён показатель оценки эффективности интернет-поиска – глубина тематического охвата (thematic coverage level, TCL), который показывает зависимость тематической полноты найденной информации от количества просмотренных документов, а также предложена новая методика оценки эффективности интернет-поиска, оперирующая семантической составляющей результатов поиска на основе коэффициента семантического потенциала поискового термина. Следующей задачей является разработка методики, позволяющей повысить эффективность тематико-ориентированного интернет-поиска с помощью минимизации объёма поисковой выборки, обеспечивающей тематическую полноту
Очевидно, что минимальный объем выборки, необходимый для обеспечения тематической полноты поиска Vmin, при использовании поисковых терминов с показателем семантического потенциала k = [1…3] является удовлетворительным. Как показано в [1, 2], работа с поисковой выборкой объёмом свыше пятнадцати документов не оправдана по причине резко снижающейся вероятности встретить новую информацию по теме поиска. Таким образом, тематико-ориентированный интернет-поиск с использованием поисковых терминов с показателем семантического потенциала k > 3 является низкоэффективным. Кроме того, в среднем в 40 % поисковых сессий при k = [4…9] тематическая полнота не обеспечивалась в пределах поисковой выборки объёмом в 100 документов.
Описание метода и результаты исследования
Разработка метода повышения эффективности поиска основывалась на следующих положениях:
1) новая информация по теме поиска сконцентрирована среди первых пятнадцати позиций поисковой выборки;
2) среднее значение оптимального объёма поисковой выборки представляет собой пятнадцать документов Soptim = 15;
3) объём поисковой выборки для обеспечения тематической полноты поиска при использовании поисковых терминов с показателем семантического потенциала k > 3 превышает оптимальный;
4) при использовании поисковых терминов с показателем семантического потенциала k > 5 вероятность получить полную информацию по теме составляет 40 %;
5) точность интернет-поиска представляет собой чаще всего константу Т @ 0,56 [3, 4];
6) включение оператора «ИЛИ» в запрос не имеет смысла при тематико-ориентированном поиске.
Задача оптимизации поиска сформулирована следующим образом: обеспечить такую тематическую полноту информации, получаемой в результате поисковой сессии (ПС) посредством уменьшения объёма поисковой выборки, чтобы семантический потенциал поискового термина был раскрыт максимально полно. Отсюда предлагаемый метод основывается на гипотезе о более высокой эффективности поиска при субституции поисковой сессии, содержащей поисковый термин Tn с показателем семантического потенциала k > 3 на k поисковых сессий по комплексу запросов . Необходимость выделения отдельных поисковых сессий связана с положением 5.
Рис. 1. Алгоритм оптимизации объёма поисковой выборки согласно описанной методике
Методика (алгоритм на рис. 1) основывается на выделении k нижестоящих дескрипторов T[k]n+1 по отношению к поисковому термину Tn, субституции исходной ПС на комплекс ПС по каждому из запросов T[k]n+1вида , проведении отдельных поисковых сессий по каждому полученному ПОЗ и интеграции результатов поисковых сессий для последовательного или параллельного просмотра в отношении поиска документов, пертинентных комплексу ПОЗ . Параметр i, определяющий объём поисковой выборки для , установлен эмпирическим путём, его значение приведено ниже.
Для определения эффективности метода реализован эксперимент на комплексе исследованных ранее запросов с k = [4…9]. Фрагмент эмпирических данных отражён на рис. 2.
Рис. 2. Фрагмент эмпирических данных по различным запросам
Эксперимент показал, что с использованием предложенного нами преобразования поисковой сессии при условии получения полной информации по теме поиска среднее значение минимального объёма поисковой выборки, обеспечивающего тематическую полноту поиска Vmin, составило 18 документов (рис. 3), что в 3,7 раза меньше, чем значение, полученное при стандартном поиске (68 документов).
Рис. 3. Объём поисковой выборки, раскрывающей семантический потенциал поискового термина, для простого и оптимизированного поиска
Анализ эмпирических данных показал, что объём поисковой выборки лишь незначительно увеличивается с повышением значения коэффициента семантического потенциала поискового термина. Этот факт говорит об универсальности объёма поисковой выборки в 18 документов, т.е. предложенная методика раскрывает семантический потенциал поискового термина в среднем в объёме поисковой выборки, равном 18 документов (рис. 4).
Представленные данные получены без учёта перекрытия пертинентных документов среди промежуточных ПС. Фактически, документ, отражающий один семантический аспект исходного поискового термина Tn, может содержать также информацию о других аспектах искомой тематики. Другими словами, процесс получения комплекса искомой информации в реальности будет происходить быстрее. Для семи случайных ПС мы фиксировали количество просмотров документов, необходимое для получения тематически полной информации. Его среднее значение составило 12 документов.
Из распределения пертинентных страниц в поисковой выборке по каждому из запросов T[k]n+1 (рис. 5) видно, что 97 % пертинентных документов расположены в пределах первых семи позиций, 88 % – четырёх.
Рис. 4. Зависимость минимального объёма поисковой выборки от коэффициента тематического потенциала поискового термина
Рис. 5. Распределение пертинентных страниц в промежуточных поисковых выборках
Параметр i, определяющий объём промежуточной поисковой выборки для , примем равным 7. Вероятность присутствия пертинентного документа в промежуточной поисковой выборке составит 97 %.
Организация результирующей выборки. При анализе результирующей поисковой выборки основными затратами пользователя, определяющими степень доступности результатов поиска и одновременно уровень их надёжности, являются: время просмотра; количество документов в результирующей выборке; количество поисковых терминов, которые необходимо держать в памяти; простой и логически понятный интерфейс. Приведём четыре варианта максимально полного предоставления результатов оптимизированного поиска пользователю, расположенные по снижению вероятных затрат среднестатистического пользователя:
1) последовательный просмотр поисковых выборок по каждому аспекту тематики поискового термина. Просмотр выборки продолжается до тех пор, пока не будет найден документ, содержащий информацию по данному аспекту тематики. Документы, отражающие другие аспекты тематики поиска игнорируются. Пользователь оперирует одним поисковым термином. Объём поисковой выборки неограничен. Среднее значение минимального объёма, обеспечивающего тематическую полноту Vmin поиска, в данном случае составит 18 документов;
2) последовательный просмотр поисковых выборок по каждому аспекту тематики поискового термина. Просмотр выборки продолжается до тех пор, пока не будет найден документ, содержащий информацию по данному аспекту тематики. Документы, отражающие другие аспекты тематики поиска фиксируются. Пользователь оперирует совокупностью поисковых терминов, раскрывающих семантический потенциал поискового термина. Объём поисковой выборки неограничен Vmin = 12.
С целью минимизации объёма результирующей выборки [5] возможна реализация двух дополнительных вариантов:
1) интеграция результатов ПС1, i = 7. Вероятность полного освещения тематики поиска 97 %. Объём поисковой выборки равен 4k. Интерфейс подобен интерфейсу ПМ;
2) интеграция результатов ПС1, i = 4. Вероятность полного освещения тематики поиска 88 %. Объём поисковой выборки равен 7k.
Выводы
1. Описана методика повышения эффективности поиска, разработанная в соответствии с полученными экспериментальными данными.
2. Экспериментально показано уменьшение минимального объёма поисковой выборки, в котором раскрыт семантический потенциал поискового термина при использовании предложенной методики оптимизации. Его среднее значение составило 18 документов, что в 3,7 раза меньше, чем значение, полученное для стандартного поиска (68 документов).
3. Объём поисковой выборки остаётся стабильным при повышении значения коэффициента семантического потенциала поискового термина (в противоположность п. 6).
4. Описаны четыре способа организации результирующей выборки. При использовании одного из них среднее значение минимального объёма поисковой выборки, обеспечивающего тематическую полноту поиска, составило 12 документов, что в пять с лишним раз меньше аналогичного значения для стандартного поиска.
Рецензенты:
Сысоев В.А., д.т.н., профессор кафедры прикладной информатики Тамбовского филиала Московского государственного университета культуры и искусств, г. Тамбов;
Гусятников В.Н., д.ф.-м.н., профессор, заведующий кафедрой прикладной математики и информатики Саратовского государственного социально-экономического университета, г. Саратов.
Работа поступила в редакцию 21.06.2013.