Информационное пространство можно рассматривать как множество связанных по смыслу элементов (документов), образующих в динамике своей эволюции информационные потоки [1]. При этом многолетние наблюдения свидетельствуют о том, что информационное пространство обладает устойчивыми закономерностями, в частности, показано, что параметры частотного и рангового распределений документов во многих информационных потоках остаются одинаковыми и определяются параметрами, зависящими от содержания, тематики информации [2].
Для исследования современных информационных потоков все чаще применяются новые подходы, потому что классические методы и средства агрегации информационных массивов не всегда способны адекватно отражать состояние динамической составляющей информационного пространства.
Для моделирования информационных потоков, с одной стороны, вполне подходит классическая теория информации, которую можно трактовать как математическую теорию связи, разработанную К. Шенноном [3] в 40-х годах ХХ столетия и существенно дополненную и расширенную в последующие годы работами Н. Винера, В.А. Котельникова и А.Н. Колмогорова. В этих работах рассматривались количественные оценки, относящиеся к передаваемой информации, было определено «количество информации». Однако сегодня понятна ограниченность такого подхода, невозможность разрешения реальных проблем, связанных с содержательной составляющей информации. Значительный вклад в исследования в области теории информации вносит нелинейная динамика, синергетика [4, 5].
Для строгости дальнейшего изложения дадим определение информационного потока, которое корреспондируется с классическим определением. Не принимая во внимание линии передачи данных, потоки данных между серверами, клиентами и т.п., остановимся лишь на факте размещения информации в информационном пространстве. Введем для этого понятие «идеального сканера», обеспечивающего считывание любого документа (будем для единообразия использовать этот термин для обозначения единицы контента, понимая его как синоним терминов «публикация, сообщение» и т.п.) в момент его помещения в информационное пространство (к таким сканерам сегодня в веб-пространстве, как фрагменте информационного пространства, все более приближаются роботы промышленных поисковых систем типа Google).
Рассмотрим отрезок (a, τ) действительной оси (оси времени), где τ > a. Допустим, что на этом отрезке времени в соответствии с некоторыми закономерностями в сети «идеальным сканером» считывается некоторое количество документов - k. На оси времени моменты публикации отдельных документов обозначим как τ1, τ2, ..., τk (a ≤ τ1 ≤ τ2 ≤...≤ τk ≤ τ). Информационным потоком будем называть процесс Na(τ), реализация которого характеризуется количеством документов, сосканированным в интервале (a, τ), как функцию правого конца отрезка τ. В соответствии с этим определением реализация информационного потока является неубывающей ступенчатой всегда целочисленной функцией Na(τ).
Приведеное определение на локальных временных областях соответствует действительности, но не учитывает такой эффект, как старение информации, которое противоречит «накопительной» способности информационного потока Na(τ) на больших промежутках времени. Этот недостаток можно компенсировать, введя дополнительные поправки, базирующиеся на модели старения информации Бартона-Кеблера [6].
Такой подход позволяет рассматривать информационные потоки как временные ряды; учитывая то, что отдельные документы из информационных потоков отражают процессы, происходящие в реальном мире, что дает возможность прогнозировать их динамику, выявлять скрытые корреляции, циклы. Сегодня для решения названных задач все чаще применяются корреляционный, дисперсионный, фрактальный, вейвлет-анализ временных рядов.
Основным объектом современного моделирования информационных потоков являются тематические информационные потоки, последовательности документов, соответствующих определенной тематике. Многочисленные факты свидетельствуют о том, что в действительности динамика тематических информационных потоков определяется комплексом внутренних нелинейных механизмов, которые, как правило, коррелируют с реальностью.
Количество документов в общем информационном потоке, состоящем из тематических потоков, является величиной относительно стабильной. Изменяются во времени лишь объемы потоков, соответствующих той или иной тематике, тому или иному информационному сюжету. Другими словами, увеличение количества документов по одной теме сопровождается уменьшением документов по другим темам, так что для каждого промежутка времени T имеем [6]:
где ni(t) - количество документов в единицу времени по теме i, а M - общее количество всех возможных тем. Таким образом для локальных временных промежутков можно наблюдать так называемый «тематический баланс». Основной интерес при этом представляет изучение динамики отдельного тематического потока, который описывается плотностью ni(t). При этом общие политематические потоки являются стационарными по количеству документов, динамика же в основном определяется «конкурентной борьбой» отдельных тематик.
Еще сложнее выглядит синхронное изменение количества документов, относящихся к нескольким тематическим информационным потокам. Их поведение четко напоминает процессы взаимодействия популяций в биоценозе. Так, например, в ряде случаев увеличение числа документов по одной теме сопровождается сокращением числа документов по другим темам. Общая динамика в этом случае может описываться системой уравнений, каждое из которых относится к отдельному монотематическому потоку.
Вместе с тем в практическом плане часто оказывается полностью удовлетворительным упрощеное понимание информационного потока как некоторой зависимой от времени величины n(t), которая описывается уравнением:
В самом простом виде такие уравнения могут иметь следующий вид:
где N - количество тематик; pi - вероятность появления в единицу времени публикации по теме i, rij - коэффициент взаимосвязи тематик i и j.
Классические модели информационных потоков, линейные и экспоненциальные, мало пригодны для изучения реальной динамики сетевых информационных потоков в течение длительных интервалов времени. Как обобщение экспоненциальной модели, предусматривающей пропорциональность скорости роста функции n(t) в каждый момент времени ее значению, можно рассмаривать логистическую модель. Главная идея логистической модели заключается в том, что для ограничения скорости роста на функцию n(t) накладывается дополнительное условие, в соответствии с которым ее значением не должно превышать некоторую величину. Для этого выберется множитель k(t) такого вида:
где P - некоторое предельное значение, которое функция n(t) не может превышать (rn0 ≤ P)(); r - коэффициент, описывающий негативные для данной тенденции процессы; k - коэффициент пропорциональности. В результате получаем логистическое уравнение:
Приведенное уравнение можно считать феноменологическим: исследователям не обязательно знать, как действуют конкретные механизмы, по мере роста n(t) снижающие скорость ее изменения.
В случае информационных потоков, которые ассоциируются с конкретными темами, необходимо описывать динамику каждого из таких потоков отдельно, принимая во внимание то, что рост одного из них автоматически приводит к уменьшению других и наоборот. Поэтому ограничение на количество документов по всем тематикам распространяется и на совокупность всех монотематических потоков. В случае изучения общего информационного потока наблюдается явление «перетекания» документов из одних тематик, в другие, более актуальные.
Общая динамика должна описываться системой уравнений, каждое из которых относится к отдельному монотематическому потоку. Приведенную выше систему уравнений «конкурентной борьбы» в рамках обобщенной логистической модели можно представить в таком виде:
где Di(t) - параметр актуальности темы.
Изучение взаимодействия тем является достаточно сложной задачей, так как на практике тематические информационные потоки охватывают большое количество зависимостей, уровень взаимозависимостей которых зачастую неизвестен. Если же говорить о системе логистических уравнений, то в рамках данной модели доминируют две основные темы взаимодействия - конкуренция и симбиоз. Конкуренции соответствуют положительные значения коэффициентов rij, соответсвующих i-й и j-й темам, т.е. взаимодействие происходит таким образом, что увеличение количества документов по одной из тем приводит к сокращениею второго информационного потока. Симбиоз возникает при отрицательных значениях коэффициентов rij, т. е. при условиях, когда тематические потоки не только потребляют определенные ресурсы, но и «подпитывают» друг друга.
Структура приведенных выше уравнений (лежащих в основе логистической модели) является достаточно общей и, например, позволяет моделировать случайные отклонения. К недостаткам такого моделирования можно отнести тот факт, что воспроизведение результатов (т.е. надежная верификация результатов) в данном случае является очень проблематичным.
Вместе с тем развитие методов математического моделирования, так называемого «мягкого моделирования» [5], в котором модели строятся, опираясь не на строгие количественные законы, а на качественные закономерности, позволили подойти к новой точке зрения в области исследования информационных потоков, что позволяет корректно использовать методы нелинейной динамики, теорий клеточных автоматов, перколяции, самоорганизованной критичности [8].
Рецензенты:
-
Матов А.Я., д.т.н., профессор, и.о. заведующего отделом Института проблем регистрации информации НАН Украины, г. Киев;
-
Калиновский А.Я., д.т.н., старший научный сотрудник Института проблем регистрации информации НАН Украины, г. Киев.
Работа поступила в редакцию 28.05.2012.
Библиографическая ссылка
Ландэ Д.В. Моделирование динамики информационных потоков // Фундаментальные исследования. – 2012. – № 6-3. – С. 652-654;URL: https://fundamental-research.ru/ru/article/view?id=30093 (дата обращения: 22.11.2024).