Научный журнал
Фундаментальные исследования
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,118

МОДУЛЬ ПОДГОТОВКИ КОЛЛЕКЦИИ РАБОЧИХ ПРОГРАММ ДЛЯ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА

Дышенов Б.А. 1 Найханова Л.В. 1 Ширапов Д.Ш. 1
1 ФГБОУ ВПО «Восточно-Сибирский государственный университет технологий и управления»
В данной статье рассматривается одна из проблем установления соответствия между компетенциями образовательного стандарта и дисциплинами учебного плана – формирование коллекции рабочих программ дисциплин. Коллекция рабочих программ используется при выполнении латентно-семантического анализа. Процесс формирования коллекции рабочих программ является достаточно трудоемким, поэтому в статье рассматривается задача автоматизации процесса поиска и формирования коллекции из сети Интернет. Основная проблема поиска информации по компетенции в интернете заключается в том, что компетенции представляют собой текст на естественном языке, состоящий из нескольких сложных терминов. Поэтому исходный текст компетенции анализируется с применением лингвистических методов и затем строится иерархическая структура терминов. Из полученных терминов формируются поисковые запросы. Результатами поисковых запросов являются ссылки на документы, которые содержат рабочие программы дисциплин. В последующем из полученных ссылок формируем искомую коллекцию рабочих программ. Эксперименты проведены для общепрофессиональных компетенций федерального государственного образовательного стандарта (ФГОС3+) направления подготовки 02.04.03 «Математическое обеспечение и администрирование информационных систем».
образовательный стандарт
компетенция
учебный план
дисциплина
иерархия терминов компетенции
поисковый запрос
коллекция рабочих программ
1. Единов С.В. Хабрахабр [Электронный ресурс] // Разработка. Латентно-семантический анализ: сайт. – URL: https://habrahabr.ru/post/110078 (дата обращения 08.08.2016).
2. Интернет-энциклопедия: Википедия. Латентно-семантический анализ. [Электронный ресурс]. – Режим доступа: https://ru.wikipedia.org/wiki/Латентно-семантический_анализ (дата обращения 5.10.2016).
3. Найханова Л.В. Применение нейро-нечеткой системы вывода для установления дисциплин, соответствующих компетенции образовательного стандарта / Л.В. Найханова, Б.А. Дышенов Б.А. // Фундаментальные исследования. – 2016. – № 5. – С. 47–52.
4. Седова Н.А. Система поддержки принятия решений для определения безопасной скорости судна / Н.А. Седова, В.А. Седов // Информационные технологии. Радиоэлектроника. Телекоммуникации. – Москва, 2016. – № 6–2. – С. 204–210.
5. Deerwester S. Indexing by Latent Semantic Analysis // Journal of the American Society for Information Science. – 1990. – 41 (6): 391–407.

В образовательном процессе после выхода новой версии образовательного стандарта требуется разработка нового учебного плана в короткие сроки. Трудоемкость процесса разработки учебного плана, короткие сроки, а также и многие другие факторы обуславливают необходимость автоматизации данного процесса. Одним из непростых аспектов разработки учебного плана является формирование перечня дисциплин учебного плана, соответствующих компетенциям образовательного стандарта.

Для решения задачи «Установление соответствия между компетенциями и дисциплинами» используется метод латентно-семантического анализа [1, 5] и нейро-нечеткие сети [3]. Метод латентно-семантического анализа применяется для получения грубых оценок соответствия дисциплин и компетенций. А аппарат нейро-нечетких сетей [3, 4] позволяет уточнить эти оценки. Латентно-семантический анализ – это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы всем документам и терминам [2]. Таким образом, для применения данного метода требуется сформировать коллекции документов.

Формирование коллекции документов

Для выполнения латентно-семантического анализа формируются две коллекции документов. Первая коллекция строится на основе анализа текста компетенции. Для каждой компетенции строится ее иерархическая структура, пример показан на рис. 1. Листочки дерева (иерархии) содержат термины (например, «основные методы испытаний программного обеспечения»), по которым можно осуществлять запросы в Wikipedia. Трассировка статей Wikipedia позволяет выделить нужную информацию об объекте поиска (термине, содержащемся в листе дерева). Коллекция статей с найденной информацией по всем терминам листочков составляет содержание компетенции. Так, например, рассмотрим общепрофессиональную компетенцию ОПК-5 «Владение основными методами и средствами автоматизации проектирования, производства, испытаний и оценки качества программного обеспечения» по направлению подготовки 02.04.03 «Математическое обеспечение и администрирование информационных систем». В ней можно выделить две составляющие:

1) основные методы автоматизации проектирования, производства, испытаний и оценки качества программного обеспечения;

2) основные средства автоматизации проектирования, производства, испытаний и оценки качества программного обеспечения.

Каждая из приведенных составляющих разбивается на субкомпоненты. Например, первая имеет следующие:

а) методы автоматизации проектирования программного обеспечения;

б) методы автоматизации производства программного обеспечения;

в) методы автоматизации испытаний программного обеспечения;

г) методы автоматизации оценки качества программного обеспечения.

Компоненты a–г являются листочками дерева иерархии, на основе которых и строится запрос, в первую очередь к энциклопедии Википедия. На основе анализа найденных ресурсов строится вторая коллекция, содержащая тексты, описывающие компетенции.

Вторая коллекция состоит из набора рабочих программ по различным дисциплинам. По многим направлениям подготовки в интернете имеются искомые документы. Надо отметить, что в коллекцию рабочих программ по рассматриваемому направлению подготовки будем включать рабочие программы дисциплин и по смежным направлениям подготовки.

Формирование коллекции рабочих программ

Для составления запросов на поиск рабочих программ используются элементы второго уровня иерархической структуры компетенции. Запрос начинается с термина «Рабочая программа» + элемент второго уровня иерархии. Например, запрос: «Рабочая программа» + «Методы автоматизации проектирования программного обеспечения». Результаты данного запроса показаны в табл. 1.

dihen1.wmf

Рис. 1. Пример иерархической структуры компетенции

Таблица 1

Результаты поискового запроса

№ п/п

Наименование рабочей программы

Направление подготовки

1

РАБОЧАЯ ПРОГРАММА учебной дисциплины (модуля) – CASE-средства проектирования программного обеспечения

010400.68 – Прикладная математика и информатика

2

РАБОЧАЯ ПРОГРАММА модуля – Технология разработки программного обеспечения

230100 Информатика и вычислительная техника

3

РАБОЧАЯ ПРОГРАММА дисциплины – Технология разработки программного обеспечения

230700 Прикладная информатика

4

РАБОЧАЯ ПРОГРАММА дисциплины – Технология разработки программного обеспечения

010500.62 «Математическое обеспечение и администрирование информационных систем»

5

РАБОЧАЯ ПРОГРАММА дисциплины – Разработка и стандартизация программных средств и информационных технологий

080801 «Прикладная информатика (по областям)»

6

РАБОЧАЯ ПРОГРАММА по дисциплине – Проектирование Информационных систем

230201 – Информационные системы и технологии

7

РАБОЧАЯ ПРОГРАММА дисциплины Технологии и инструментальные средства автоматизации разработки программного продукта

09.06.01 Информатика и вычислительная техника

8

УЧЕБНО-МЕТОДИЧЕСКИИ КОМПЛЕКС дисциплины «Автоматизированное проектирование средств и систем управления»

220400 «Программное обеспечение вычислительной техники и автоматизированных систем»

9

Рабочая программа по дисциплине «Автоматизация проектирования систем и средств управления»

230100 Информатика и вычислительная техника

10

Таблица 2

Результаты поискового запроса

№ п/п

Наименование рабочей программы

Направление подготовки

1

УМКД дисциплины «Архитектура вычислительных систем и компьютерных сетей»

02.03.03 – Математическое обеспечение и администрирование информационных систем

2

РАБОЧАЯ ПРОГРАММА учебной дисциплины «Архитектура ЭВМ и вычислительных систем»

010503 – Математическое обеспечение и администрирование информационных систем

3

РАБОЧАЯ ПРОГРАММА дисциплины «ЭВМ и периферийные устройства, ЭВМ и ПУ»

02.03.03 – Математическое обеспечение и администрирование информационных систем

4

РАБОЧАЯ ПРОГРАММА дисциплины «Операционные системы и оболочки»

010500.62 «Математическое обеспечение и администрирование информационных систем»

5

РАБОЧАЯ ПРОГРАММА дисциплины «Администрирование информационных систем»

010500.62 – Математическое обеспечение и администрирование информационных систем

6

РАБОЧАЯ ПРОГРАММА дисциплины «Архитектура вычислительных систем и компьютерных сетей»

010500.62 – Математическое обеспечение и администрирование информационных систем

7

УМКД дисциплины «Администрирование в информационных системах»

230201.65 «Информационные системы и технологии»

8

УЧЕБНАЯ ПРОГРАММА дисциплины «Администрирование информационных систем»

010500.62 – Математическое обеспечение и администрирование информационных систем

9

РАБОЧАЯ ПРОГРАММА дисциплины «Вычислительные машины, системы и сети»

220400 – Программное обеспечение вычислительной техники и автоматизированных систем

10

РАБОЧАЯ ПРОГРАММА модуля «Организация ЭВМ дисциплины ЭВМ и периферийные устройства»

230100 Информатика и вычислительная техника

11

РАБОЧАЯ ПРОГРАММА учебной дисциплины «Архитектура ЭВМ И ВС»

010501.65 Прикладная математика и информатика

12

dihen2.tif

Рис. 2. Основное окно пользовательского интерфейса модуля

Для компетенции ОПК-11 «Владение навыками выбора архитектуры и комплексирования современных компьютеров, систем, комплексов и сетей системного администрирования» составлен запрос: «Рабочая программа» + «Выбор архитектуры и комплексирования современных компьютеров, систем, комплексов и сетей системного администрирования». На этот запрос получены результаты, показанные в табл. 2, строки с 1-ой по 8-ую.

Документ в 9-ой строке получен на запрос с выполненным стеммингом словоформ: «Рабоч программ» + «Метод автоматизац проектирован программн обеспечен».

Данный пример показывает, что для полноты комплектования коллекции рабочих программ следует рассматривать все виды запросов по всем элементам иерархии. В качестве левого элемента шаблона запроса можно использовать три элемента: рабочая программа, учебная программа и УМКД.

Компонентная структура модуля. Основными компонентами модуля являются: интерфейс пользователя, анализ и формализация данных, формирование запросов к поисковым системам, формирование коллекции рабочих программ.

Пользовательский интерфейс. Данный компонент представляет собой совокупность средств и методов, при помощи которых пользователь взаимодействует с модулем подготовки коллекции рабочих программ.

Анализ и формализация данных. На вход программы подается массив текста компетенции. Наша задача заключается в том, чтобы выделить именных субстантивных словосочетаний и затем построить иерархическую структуру компетенции. Надо отметить, что на верхних уровнях иерархии располагаются термины, представляющие собой сложные составные именные субстантивные словосочетания. Декомпозиция терминов осуществляется посредством морфологических шаблонов.

Формирование запросов к поисковым системам. Из полученного набора терминов формируются поисковые запросы. Каждая поисковая система предоставляет свой API (набор готовых классов, процедур, функций, структур и констант, предоставляемых приложением/библиотекой/сервисом) для формирования автоматических запросов. Исходя из этого, для каждой поисковой системы формируются свои индивидуальные методы извлечения информации.

Формирование коллекции рабочих программ. Из найденных ссылок, полученных в результате выполнения поисковых запросов, формируем коллекцию документов. При формировании данной коллекции в качестве критерия отбора принято включать документы, в названии которых имеются ключевые слова: рабочая программа, учебная программа, УМКД.

Для иллюстрации работы программы рассмотрим пользовательский интерфейс, представленный на рис. 2. В показанном окне ввода входной информации предполагаются следующие действия:

1. Выбирается источник запроса – это основные поисковые системы, такие как google.com, yandex.ru. У каждого поискового сервера есть свои особенности работы. Результирующие данные разных поисковых серверов могут сильно отличаться.

2. Выбирается категория ресурсов – это левая часть запроса: рабочая программа, учебная программа, УМКД.

3. Выбирается способ нормализации словоформ – это лемматизация или стемминг. Лемматизация приводит словоформу к инфинитиву. Стемминг оставляет основу слова.

4. Выбирается входной xml-файл компетенции.

5. Выбирается результирующий тип документов doc или pdf.

6. Вводится имя выходного xml-файла, в котором будут содержаться данные по найденным документам – это ссылка на источник, имя файла, путь к директории сохранения.

Пример выходного файла xml:

dihen2a.wmf

7. Выбирается директория сохранения.

Основным критерием отбора документов в коллекцию служит наличие указанных пользователем ключевых слов в названии документа: рабочая программа, УМКД, учебная программа.

Заключение

В работе исследована возможность автоматизации процесса построения коллекции рабочих программ дисциплин. Исследования показали возможность построения достаточно полной коллекции. Конечно, качество рабочих программ различно, но это не самый важный фактор установления соответствия между компетенциями образовательного стандарта и дисциплинами учебного плана.


Библиографическая ссылка

Дышенов Б.А., Найханова Л.В., Ширапов Д.Ш. МОДУЛЬ ПОДГОТОВКИ КОЛЛЕКЦИИ РАБОЧИХ ПРОГРАММ ДЛЯ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА // Фундаментальные исследования. – 2017. – № 2. – С. 57-61;
URL: http://fundamental-research.ru/ru/article/view?id=41357 (дата обращения: 23.09.2018).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.252