Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

AUTOMATION OF MULTIDIMENSIONAL DATA PROCESSING TASKS IN COGNITIVE MODELING

Martyshenko S.N. 1 Stepanenko A.A. 1
1 Vladivostok State University of Economics and Service
At the present time is particularly relevant area of research related to the concept of big data. Big data is not only useful information – it’s a lot of money. The problem lies in the complexity of the researcher to handle large volumes of multidimensional data. Therefore, a particularly important task is to select the available funds that could in any way to simplify or automate the process. Presented on the market data tools do not always cope with the tasks and have a high entry threshold – the price and qualification of the expert. The article discusses the methodology developed tool that allows you to automate multi-dimensional data processing for cognitive modeling tasks in the spreadsheet application Excel VBA tools. Working software is demonstrated on real data examples.
algorithm
data processing
multivariate analysis
Excel
automation
computer technology
questionnaire
cognitive models
1. Gajdyshev I.P. Reshenie nauchnyh i inzhenernyh zadach sredstvami Excel, VBA i C/C++. SPb.: BHV-Peterburg, 2004. 512 р.
2. Gorelova G.V. Kognitivnyj podhod k imitacionnomu modelirovaniju slozhnyh sistem // Izvestija JuFU. Tehnicheskie nauki. 2013. рр. 239–250.
3. Gorelova G.V., Zaharova E.N., Ginis L.A. Kognitivnyj analiz i modelirovanie ustojchivogo razvitija socialno-jekonomicheskih sistem. Rostov n/D: Izd-vo Rost. un-ta, 2005. 288 р.
4. Guzairov M.B., Iljasov B.G., Zakieva E.Sh., Gerasimova I.B. Kognitivnaja model formirovanija pokazatelja kachestva zhizni // Vestnik Ufimskogo gosudarstvennogo aviacionnogo tehnicheskogo universiteta. 2013. T. 17, no. 2 (55). рр. 215–220.
5. Zinjuk O.V. Proverka vyborki na normalnost i raschet korreljacionnogo otnoshenija v srede MS Excel i VBA // Jekonomika, statistika i informatika. 2011. no. 5. рр. 109–114.
6. Kulinich A.A. Sistema kognitivnogo modelirovanija «Kanva». // Vosmaja nacionalnaja konferencija po iskusstvennomu intellektu (g. Kolomna, 4–12 oktjabrja 2002 g.) KII. 2002. рр. 632–641.
7. Lihosherst E.N., Mazelis L.S. Formirovanie kollektivnogo mnenija gruppy jekspertov pri strategicheskom upravlenii v universitete // Territorija novyh vozmozhnostej. Vestnik Vladivostokskogo gosudarstvennogo universiteta jekonomiki i servisa. 2011. no. 4. рр. 142–147.
8. Martyshenko S.N. Kognitivnyj podhod k ocenke socialno-jekonomicheskih problem naselenija regiona (na primere Primorskom kraja) // Nauchnyj almanah. 2016. no. 1–1 (15). рр. 193–196.
9. Martyshenko S.N. Analiz dannyh monitoringa socialno-jekonomicheskih processov v municipalnyh obrazovanijah // Informacionnye tehnologii modelirovanija i upravlenija. 2012. no. 6 (78). рр. 506–512.
10. Martyshenko S.N. Issledovanie processov, vlijajushhih na kachestvo zhizni na territorii Primorskogo kraja // Fundamentalnye issledovanija. 2014. no. 3–3. рр. 555–559.
11. Martyshenko S.N. Metodicheskoe obespechenie analiza dannyh monitoringa socialno-jekonomicheskih processov v municipalnyh obrazovanijah // Jekonomika i menedzhment sistem upravlenija. 2012. T. 6, no. 4.2. рр. 259–267.
12. Mihajlov S.N., Tezik K.A. Variant programmnoj realizacii sposoba tematicheskoj klasterizacii tekstovyh dokumentov na osnove ispolzovanija makrosov VBA i Excel // Izvestija Jugo-Zapadnogo gosudarstvennogo universiteta. 2012. no. 4 (43). Ch. 2 рр. 17–21.
13. Motrich E.L. Demograficheskaja situacija na Dalnem Vostoke Rosi: osnovnye tendencii i vyzovy // Narodonaselenie. 2016. T. 1, no. 1 (71–1). рр. 25–33.
14. Soloduhin K.S. Modeli podderzhki prinjatija strategicheskih reshenij na osnove sistemy sbalansirovannyh pokazatelej // Jekonomicheskie nauki. 2009. no. 53. рр. 253–260.
15. Stabin I.P., Moiseeva B.C. Avtomatizirovannyj sistemnyj analiz M.: Mashinostroenie, 1984. 309 р.
16. Chubukova I.A. Data Mining. Kurs lekcij internet-universiteta INTUIT [Jelektronnyj resurs]: Rezhim dostupa: http://www.intuit.ru/goods_store/ebooks/286 (data obrashhenija: 12.12.16).
17. Jandieva M.S. O nekotoryh napravlenijah socialno-jekonomicheskogo razvitija juga Rossii na sovremennom jetape // Jekonomika i predprinimatelstvo. 2016. no. 9 (74). рр. 137–140.

Миниатюризация в радиоэлектронике и экспансия интернета в XXI веке привела к бурному развитию мобильных технологий сбора данных, облачных технологий хранения и обработки данных, а также широкой доступности технологий, позволяющих получить доступ к большим данным. Поэтому, как никогда ранее, особенно актуальной является область науки о больших данных (Big Data).

Развитие средств и методов обработки, анализа и хранения большого объема данных привело к появлению термина «Data Mining», пришедшему из зарубежной практики. С английского термин «Data Mining» переводится как «добыча данных», под которым подразумевают процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных знаний, необходимых для принятия решений в различных областях человеческой деятельности. Большинство авторитетных источников придерживается подхода, в котором инструментарий Data Mining классифицируется на статистические алгоритмы и кибернетические, которые тем или иным образом опираются на сопоставление статистического опыта с результатами мониторинга текущей ситуации [16].

Известно, что системный анализ является одним из общепризнанных в науке методов решения проблем и многими учеными рассматривается вообще как метод научного познания. Однако в 1984 году проф. И.П. Стабин впервые заметил, что на практике обычно системный анализ успешно применяется в сравнительно простых случаях, в которых в принципе можно обойтись и без него, тогда как в действительно сложных ситуациях, когда он действительно очень востребован и у него нет альтернатив, сделать это удается гораздо реже. Предложенный И.П. Стабиным путь решения этой проблемы заключался в автоматизации системного анализа [15].

Само понятие «сложных систем», активно используемое с середины 20-го века, является собирательным названием систем, состоящих из большого числа взаимосвязанных, взаимодействующих элементов подсистем, закономерно объединенных в единое целое. Социально-экономические, экологические, политические, технические системы являются сложными по определению. Сложным системам присущи закономерности, которые всегда необходимо иметь в виду при их исследовании, прогнозировании развития, принятии решений, управлении [2].

В условиях рыночной экономики и конкурентной борьбы потребности общества в статистических оценках социально-экономических явлений и процессов, в экономическом анализе, моделировании и прогнозировании на основе статистических данных играют очень значимую роль, как в сфере государственного управления, так и бизнеса.

Когнитивное моделирование широко используется в современной теории оценки и принятия решений при исследовании управления слабоструктурированных систем и ситуаций. Использование этого метода создает новые возможности постижения наблюдаемых процессов, явлений и событий с целью разработки управленческих решений. Термин «когнитивность» пришел из психофизиологии (от лат. cognitio, «познание, изучение, осознание»), обозначает способность к умственному восприятию и переработке внешней информации. Особенно часто этот термин употребляется в контексте изучения так называемого «контекстного знания» (т.е. абстрактизации и конкретизации), а также в тех областях, где рассматриваются такие понятия, как знание, умение или обучение. Технология когнитивного моделирования предполагает реализацию следующего циклического процесса: структуризация знаний о проблемной ситуации (процессе) > модель > моделирование > получение новых знаний > модель > и т.д., в процессе которого знания об исследуемом объекте (проблеме) расширяются и уточняются [3]. Наиболее трудными для анализа и поддержки принятия решений являются слабо структурированные уникальные ситуации, типичные для задач мониторинга и управления в административной и социально-политической сферах. В них характеристики ситуации могут быть представлены лишь качественно. Кроме того, анализу ситуаций и выработке вариантов решений должна предшествовать формализация модели ситуации, т.е. выявление основных факторов, связей между ними и силы влияния одних факторов на другие [6]. Когнитивный подход используется в решении проблем понимания естественного языка, компьютерного перевода, теории искусственного интеллекта, компьютеризации всех сфер общественной деятельности [4]. При анализе ситуаций, описанных когнитивными моделями, решаются два типа задач: статические и динамические. Статический анализ – это анализ текущей ситуации, включающий исследование влияний одних факторов на другие, исследование устойчивости ситуации в целом и поиск структурных изменений для получения устойчивых структур. Динамический анализ – это генерация и анализ возможных сценариев развития ситуации во времени [8].

Цель исследования

Проблема исследователя заключается в сложности обработки больших объемов многомерных данных. Поэтому перед исследователем возникает проблема выбора доступного средства, способного максимально упростить или автоматизировать этот процесс. Представленные на рынке инструменты обработки данных не всегда справляются с поставленными задачами и обладают высоким порогом вхождения – это цена и квалификация эксперта. Кроме низкого порога вхождения, к выбору информационной технологии предъявляются требования, позволяющие существенно экономить время пользователя, носить диалоговый характер, облегчать проведение сложных расчетов, обеспечивать удобный интерфейс с известными программными продуктами, обеспечивать мгновенный пересчет результатов при вводе либо изменении исходных данных, гибкость настройки, наличие встроенных функций, подключаемых модулей, возможность использования логических операторов. Перечисленным требованиям удовлетворяет компьютерная система, базирующаяся на информационной технологии VBA, как надстройка над табличным процессором Excel. Данная система знакома и доступна большинству пользователей персональных компьютеров и изучается в образовательных структурах России. Огромным плюсом этого инструмента является не только возможность обработки больших данных, но и автоматизация однотипных, повторяющихся процессов, что повышает эффективность принятия решений экспертом. Поэтому выбор статистического инструмента обработки данных сделан в пользу табличного процессора Excel.

Вопросы создания дополнительных модулей обработки и анализа статистических данных, макросов и программ для Excel рассматриваются в работах отечественных и зарубежных авторов: И.П. Гайдышева, О.В. Зинюк, С.Н. Михайлова, С.Н. Мартышенко, Ганс-Йоахим Берндт, Буркард Каинка и др. [1, 5, 9, 11, 12].

Целью настоящей работы является разработка компьютерной технологии, позволяющей автоматизировать процесс разработки когнитивных моделей, основанных на анализе данных опросов населения. В представленной статье предлагается к рассмотрению компьютерная технология, которая позволяет на основании анкетных опросов населения некоторой территории решать две основные задачи:

– расчет оценки социального ожидания населения решения важнейших социально-экономических проблем (социального самочувствия населения);

– расчет оценок «значимости» связей отдельных социально-экономических проблем, который позволяет автоматизировать наиболее трудоемкий этап построения когнитивной модели.

Материалы и методы исследования

Представленный алгоритм реализован в виде программного средства, являющегося надстройкой к Excel и предназначенного для обработки данных, собираемых с помощью определенных анкетных форм. Анкетная форма определенного образца положена в основу некоторой модели данных, допускающей использование программного обеспечения в определенном диапазоне конкретных анкетных форм, используемых для анализа социально-экономических проблем и явлений. Прежде чем перейти к рассмотрению модели данных рассмотрим некоторую конкретную анкетную форму (рис. 1).

Анкета имеет вид таблицы. В строках таблицы перечислены социально-экономические проблемы, которые были определены при массовых опросах населения Приморского края [10]. В первых трех столбцах таблицы респондент должен проставить количественные оценки уровня решения перечисленных социально-экономических проблем по сравнению с уровнем, который соответствует, по мнению респондента, нормам современных требований (в процентах). В первом столбце оценивается текущее состояние, во втором и третьем дается прогноз изменения показателей на ближайшие 5 и 10 лет. Следующие 17 столбцов заполняются по правилу: в каждой строке отметить цифрой 1 три клетки в столбцах с номерами проблем, на которые, по мнению респондента, может более всего оказать позитивное влияние на изменение состояния проблемы, указанной в строке. В строке должно быть обязательно отмечено три позиции (не больше и не меньше).

Такая форма опроса может быть использована и при исследовании других задач исследования социально-экономических явлений и процессов. Для того чтобы программное обеспечение позволяло обрабатывать различные анкеты подобного типа, была разработана модель данных, которая представляет собой список правил, допустимых при разработке анкет. Таблица данных может включать различное количество строк, что автоматически отражается и на количестве столбцов. Она может содержать различное количество столбцов с оценками состояния проблем, исследуемых в опросе. Кроме того, по усмотрению исследователя, допускается по каждой анкете еще добавить признаки учетного характера, такие как номер анкеты, дата, фамилия, место проживания и прочее. Количество таких признаков не лимитируется. Такие признаки мы определили как «дополнительные признаки».

При обработке данных анкет подобного рода в Excel возникают трудности технического характера. Во-первых, в таких анкетных формах, как-правило, содержится значительное количество строк (не менее десяти). При небольшом количестве исследуемых процессов задача вообще теряет смысл. Каждая анкета (таблица) размещается в одной строке таблицы Exce. Поскольку в исходной анкетной форме содержится очень много элементов, для размещения исходных данных может потребоваться не один лист Exce. С учетом дополнительных столбцов по оценке состояния проблем, могут образовываться достаточно сложные конфигурации данных в Excel, которые приводят к сложным вычислениям. Такие вычисления могут оказаться весьма затруднительными для пользователей, не являющихся профессионалами в области разработки средств анализа данных.

mart1.tif

Рис. 1. Анкетная форма «Оценка перспектив решения основных проблем в Приморском крае»

mart2.tif

Рис. 2. Интерфейс программы «Анализ данных когнитивной модели»

mart3.tif

Рис. 3. Пример выполнения расчетов оценок социальных ожиданий населения

Реальный вычислительный процесс осложняется тем, что расчетные формулы должны быть написаны с использованием относительной адресации, поскольку результаты должны автоматически пересчитываться при правке и дополнении данных. Кроме того, может потребоваться выполнение расчетов по части таблицы исходных данных. Например, выполнить расчеты по определенным группам респондентов или по данным, охватывающим определенные временные интервалы при решении задач мониторинга.

Рассмотрим возможности разработанной программы. Интерфейс программы «Анализ данных когнитивной модели» представлен на рис. 2. В примерах, демонстрирующих работу программы, использовались реальные данные анкетного опроса 350 студентов экономических специальностей Владивостокского государственного университета экономики и сервиса.

При определении параметров программы пользователь, во-первых, должен определить список решаемых задач. Для этого ему необходимо установить галочки напротив задач, которые позволяет решать программа: расчет оценок социального ожидания, расчет матрицы оценок значимости связей социально-экономических проблем.

Во-вторых, указать место расположения данных, то есть параметры: диапазон данных ч1, диапазон данных ч2. Допускается использование не более двух листов таблицы Excel. Если данные размещены на одном листе Excel, то второй параметр не указывается. Для подключения листа с данными необходимо щелкнуть мышью в верхнем углу соответствующего листа Excel. Если пользователь для хранения данных использует стандартные названия листов («Данные ч1» и «Данные ч2»), то определять расположение данных нет необходимости. В этом случае диапазоны данных будут определены автоматически.

В соответствии с моделью данных, обязательно необходимо определить следующие три параметра: количество социальных проблем, количество оценок состояния, количество дополнительных признаков. Если в обрабатываемой анкете вообще не используются оценки состояния или дополнительные признаки, то в соответствующих полях необходимо задать значение «0».

Для выделения наиболее существенных связей между исследуемыми проблемами необходимо задать пороговое значение. Связи, которые имеют оценки ниже пороговых значений, считаются несущественными и в результирующей матрице оценок связей имеют нулевые значения.

При решении задач мониторинга необходимо определить еще два дополнительных параметра: диапазон столбца дат, таблица соответствия «период – дата». Если в расчетах данные по датам не используются, то эти поля можно не определять.

Для указания места размещения результатов используется параметр «результаты разместить». Значение параметра определяет ячейку листа Excel, выбранную для размещения результатов. Данный параметр задается на любом листе EXCEL, кроме листа с данными. Если этот параметр не задан, то результаты по умолчанию размещаются на новом листе ExcelL.

mart4.tif

Рис. 4. Диаграмма изменения оценок социальных ожиданий населения

mart5.tif

Рис. 5. Пример расчета матрица оценки существенных связей представлен по всем данным при пороге значении 0,12

mart6а.wmf

Рис. 6. Когнитивная модель взаимосвязи социально-экономических проблем

Рассмотрим функции и результаты выполнения программы «Анализ данных когнитивной модели». При выполнении расчетов оценок социального ожидания рассчитывается таблица средних значений оценок социальных ожиданий по всем анкетам, участвующим в расчетах (рис. 3).

Наглядно представить картину изменения оценок социального ожиданий населения можно на специальной диаграмме (рис. 4).

При выполнении расчетов матрицы оценок значимости связей социально-экономических проблем рассчитываются таблицы (матрицы): матрица абсолютных значений частоты встречаемости связей в ответах респондентов, матрица относительных значений частоты встречаемости связей в ответах респондентов, матрица оценки существенных связей в ответах респондентов. Каждая последующая матрица рассчитывается по данным предыдущей таблицы. Пример расчета «матрица оценки существенных связей» представлен на рис. 5.

В результате расчетов было определено 37 существенных связей. Данные матрицы связей используются для построения когнитивной модели. Пример когнитивной модели представлен на рис. 6.

Результаты исследования и их обсуждение

Рассмотренная программа допускает использование при построении различных когнитивных моделей, разрабатываемых в соответствии с введенной моделью данных, то есть обладает свойством универсальности. Преимуществом программы является то, что она позволяет пользователю сосредотачивать свое внимание на исследуемой проблеме, не тратя времени на рутинные расчеты. Это свойство эффективности. Использование программы снижает риски ошибок расчетов – свойство надежности. Программа реализует некоторую методику разработки и анализа когнитивной модели, что указывает на свойство технологичности. Программа реализована в среде Excel, что позволяет использовать ее большому количеству исследователей. Программа распространяется на безвозмездной основе, что актуализирует свойство доступности. И наконец, программа не требует от пользователя значительных специальных знаний и проста в использовании.

В настоящее время разрабатывается новая версия программы, которая будет обеспечивать исследователям ряд новых возможностей анализа полученных когнитивных моделей. Для анализа модели предполагается использовать числовые оценки связей, которые предполагается получить в ходе опроса квалифицированных экспертов. При наличии грубой модели они могут внести уточняющие изменения в структуру модели и оценки связей. При этом сложность работы экспертов существенно снижается из-за снижения размерности задачи.

Кроме того, в программу предполагается включить возможность отсеивания полностью некомпетентных или недобросовестных респондентов. Для этого в настоящее время разработан специальный алгоритм, который прошел апробацию на контрольных примерах.

В настоящее время планируется работа по использованию программы для анализа экспертных оценок, полученных при исследовании экономических процессов в ходе работ научных коллективов Владивостокского государственного университета экономики и сервиса [7, 14]. По результатам апробации на других данных предполагается дальнейшее усовершенствование модели данных, что позволит расширить круг решаемых задач.

Заключение

Развитие демократических процессов в нашей стране приводит к тому, что при принятии решений все более учитывается мнение людей, проживающих на определенной территории. Особенно важно учитывать мнение людей в неблагополучных регионах [17]. В настоящее время из-за неблагоприятных условий в Приморском крае продолжается отток наиболее активной части населения [13]. В этих условиях очень важно держать под контролем социальное самочувствие населения, способствуя установлению контакта между властными структурами и населением региона. Во Владивостокском государственном университете в течение ряда последних лет проводятся социологические опросы населения и разрабатываются новые методики исследования социально-экономических процессов.

Предлагаемая к рассмотрению компьютерная технология является частью системных исследований, проводимых в университете. Эффективность программы была подтверждена при обработке реальных данных, полученных в ходе реальных социологических опросов.