Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

SEMANTIC ANALYSIS OF SUPPLIER REVIEWS BASED ON THE USE OF NEURAL NETWORK TECHNOLOGY

Shimokhin A.V. 1
1 P.A. Stolypin Omsk State Agrarian University
1328 KB
This article presents the results of the work aimed at investigating the possibility of using semantic text analysis based on neural network technology as a tool when choosing a supplier. The article presents successful, practical examples of how neural networks work with text data in the field of marketing, price forecasting, working with text documents, and analyzing customer behavior. The necessity of increasing objectivity when choosing a service provider, due to the processing of a larger amount of data, is noted The possibility of using semantic analysis based on neural networks in order to search for negative and positive reviews with the subsequent formation of the supplier’s image is considered. To train the neural network, we used the corpus of Yu.V. Ryabtseva’s tweets, symbols, icons, and reviews about car service providers collected by the author. Based on these data, a neural network was developed and trained in the Python programming language. The effectiveness of this neural network has been confirmed on feedback messages taken from open sources, which makes it possible to further use neural network technology to select suppliers using the Internet. Such a selection is a preliminary stage in the search for a supplier, but due to the use of neural network technology, it becomes possible to process not only a large amount of data, but also to obtain an objective sample of the most reliable organizations, according to customer reviews, in a short period of time.
neural network modeling
neural network
supplier
Python car service

В настоящее время продолжают развиваться различные цифровые технологии, все чаще слышно о создании новых цифровых решений в различных областях человеческой деятельности. Так, например, создаются умные алгоритмы, которые могут предсказывать с большой точностью курсы валют, прогнозировать спрос и цены на товары и др. Люди различных профессий все больше освобождаются от «рутины» [1] благодаря новым цифровым технологиям [2]. Например, существуют отдельные приложения для бухгалтерского анализа, анализа спроса, прогноза цен сельскохозяйственной продукции и др. И хотя речь идет об «узком искусственном интеллекте», то есть алгоритмах, которые созданы для решения определенных задач, их эффективность не вызывает сомнений. При этом в работе [2] отмечается, что данные тенденции не приведут к исчезновению рабочих мест, а обеспечат условия для более качественной работы. Рассмотрим цифровые решения, которые, по мнению авторов [3–5], войдут в бизнес в ближайшие пять лет.

В Японии в IBM ведется разработка программы на основе нейронной сети, которая должна будет определять условия страхования клиентов. Данная программа, по заявлениям разработчиков, позволит страховым компаниям повысить продуктивность на 30 % и окупится за два года [3–5].

Технология машинного обучения также применяется для борьбы с мошенничеством в различных сферах деятельности. Например, в платежной системе PayPal благодаря таким алгоритмам, мошеннические транзакции составляют всего 0,32 %, тогда как обычно в финансовом секторе этот показатель достигает 1,32 % [5].

Нейронные сети в настоящее время способны анализировать естественные языки, такие сети используются для создания чат-ботов, которые позволяют клиентам получать необходимую информацию о товарах и услугах компании. Такие алгоритмы, например, уже применяются в приемной Правительства Москвы и обрабатывают около 5 % запросов [4].

В общем, цифровых решений с помощью данных технологий в областях бизнеса становится все больше.

Однако можно отметить, что различные задачи бизнеса, которые решаются с помощью нейросетевой технологии, чаще связаны с маркетингом, анализом спроса, прогнозированием цен [3]. Между тем существует ряд вопросов, связанных с организацией деятельности: выбор поставщика, поиск мест для торговли, решения об аутсорсинге и др. [6].

Так, под аутсорсингом понимается процесс передачи определенных функций и работ стороннему поставщику. Механизм передачи включает как анализ и выбор процесса для передачи на аутсорсинг, так и поиск поставщика-аутсорсера. Вообще аутсорсинг считается одним из эффективных инструментов для повышения эффективности бизнеса. Для решения задач, сопутствующих решению о аутсорсинге, менеджерам необходимо решить, по каким критериям выбирать аутсорсера или поставщика, как измерить эффективность решений, каким должен быть объем переданных работ на аутсорсинг. Для всех этих задач менеджеры со временем могут получить помощников – интеллектуальные программные продукты.

Рассмотрим рынок автосервисных услуг. По последним данным количество автомобилей, как и фирм в сферах ремонта и ТО автомобилей, растет [7]. При этом в их долю также входят услуги для корпоративных клиентов.

Как было показано в работе [6], для выбора поставщика автосервисных услуг возможно применение шкалы оценки по следующим характеристикам поставщика: время существования на рынке, отзывы о фирме-поставщике, крупные компании в клиентах поставщика. В этой же работе была получена математическая модель

Ni = 0.37∙R1 + 023∙R2 + 0.4∙R3, (1)

где Ni – надежность i-го поставщика услуг; R1 – значение параметра времени существования поставщика на рынке; R2 – значение параметра количества крупных предприятий в клиентах данного поставщика; R3 – значение параметра количества отзывов о фирме-поставщике.

Для параметра R3:

Rз = ∑Np – ∑Nn, (2)

где R3 – значение параметра количества отзывов о фирме-поставщике; Np – положительный отзыв; Nn – отрицательный отзыв.

Данная модель использовалась для проверки работы нейронной сети по выбору поставщика услуг. Предполагается, что система для выполнения поставленной задачи должна уметь обрабатывать информацию о поставщиках и интерпретировать данные, как в социальных сетях, так и на сайтах, содержащих отзывы о компаниях. Актуальным становится проведение исследований возможности нейронной сети использовать семантический анализ при выполнении задачи по выбору поставщика.

Как отмечалось [8], в настоящее время ведутся исследования по разработке методов и инструментов анализа информации из массивов текстовых данных, одна из задач таких методов – извлечение ключевых понятий текстовых файлов. В случае с отзывами поставщиков большее значение приобретает эмоциональный характер сообщения, тоновая окрашенность сообщения. То есть речь идет о так называемом семантическом анализе. Название данного анализа происходит от термина семантика – дисциплина, изучающая связь слов и образов, которые передает автор текста. Семантический анализ является сложной математической задачей, которую приходится решать в процессе разработки искусственного интеллекта, результаты семантического анализа могут использоваться для анализа качества товаров или услуг, по отзывам, на сайтах, поисковиках и соцсетях.

Анализ информации о поставщиках в сети является промежуточным этапом их выбора, при котором отбираются организации, которые вызывают доверие, несут положительный образ, и именно с ними будет идти дальнейшая работа по выбору поставщика услуг. Но для повышения объективности и сокращения времени выполнения данного анализа необходимо обработать большое количество данных, чего можно достигнуть за счет применения семантического анализа на основе нейронных сетей, который определит количество отрицательных и положительных отзывов о поставщике, выберет несколько наиболее «привлекательных». После данного этапа проходит дальнейший выбор поставщика среди отобранных нейронной сетью. За счет обработки большего объема данных обеспечивается качество отбора и значительно сокращается время его выполнения. Цель исследования – изучение возможности нейронных сетей анализировать тоновую окраску отзывов о поставщике, с целью их отбора для дальнейшего выбора поставщика.

Материалы и методы исследования

С целью проверки возможности нейронных сетей анализировать тоновую окраску отзывов о поставщике была построена нейронная сеть на языке Python. Для ее обучения применялся корпус твитов Ю.В. Рябцевой [8], ее применение обосновано тем, что он содержит 114 991 размеченных коротких положительных сообщений и 111 923 размеченных коротких отрицательных сообщений. Отзывы зачастую представляют собой короткие сообщения, из которых и состоит корпус твитов, которые выражают отношение к тому или иному объекту. В работе [8] показана эффективность использования смайликов (символы-иконки, обозначающие эмоции в письменных сообщениях) для классификации текстов на положительные и отрицательные. Показано, что алгоритм более точно определяет эмоциональную окраску сообщения, если автор указал символ, обозначающий эмоции. Поэтому были составлены словари размеченных символов. Для составления словаря символов использовался ресурс Wikipedia [9]. Кроме того, в размеченный текст для обучения нейронной сети были добавлены сообщения – отзывы непосредственно об автосервисных услугах, около 300 положительных и 300 отрицательных, взятых из открытых источников [9]. Для успешного применения нейросетевой технологии из сообщений-постов были убраны знаки препинания и имена собственные. Удаление собственных имен, в данном случае названий автосервисных предприятий, обосновано тем, чтобы при обучении нейронная сеть случайно не «запомнила» определенное название предприятия как «плохое» или, наоборот, «хорошее» – это сделано для повышения точности оценки эмоциональной окраски поста. Допустим, отзыв плохой, но нейронная сеть оценит его как положительный из-за присутствия в нем наименования «хорошей» компании. Нейронная сеть [8] обрабатывает текстовые сообщения следующим образом: создается словарь, в котором каждому уникальному слову присваивается номер. Тогда входной слой нейронной сети будет равен количеству уникальных слов в словаре, которые активируются, когда на вход подается сообщение-отзыв. Для обучения нейронной сети использовался метод распространения обратной ошибки [9] и применялась библиотека tensorflow.

В процессе подготовки текста для обучения нейронной сети использовался модуль Stemmer (рис. 1) [8].

missing image file

Рис. 1. Реализация модуля Stemmer

Данный модуль позволяет работать с кириллическими символами и отсекает от слов окончания и суффиксы. В результате из собранной обучающей выборки было получено 92 200 уникальных слов. Из них для словаря нейронной сети было отобрано 5 100 слов по повторяемости в сообщениях-отзывах. Алгоритм построения нейронной сети показан на рис. 2.

missing image file

Рис. 2. Алгоритм построения нейронной сети

missing image file

Рис. 3. Позитивный отзыв (95 %)

missing image file

Рис. 4. Отрицательный отзыв на 97 %

missing image file

Рис. 5. Оценка отзывов из открытых источников

Результаты исследования и их обсуждение

Для нейронов промежуточных слоев, по рекомендации [8], была выбрана функция активации Relu.Ее рекомендуют использовать при большом количестве нейронов. Проверка точности распознавания на тестовой выборке показала точность нейронной сети 73 %.

Затем для проверки были взяты некоторые сообщения из выборки, и нейронная сеть в целом правильно их охарактеризовала (рис. 3–4).

В последнем примере, несмотря на то, что в отзыве было около 15 % незнакомых слов, нейронная сеть правильно охарактеризовала его как отрицательный. На рис. 5 показан ввод новых отзывов и результат их оценивания нейронной сетью.

Как видим, несмотря на существенное количество незнакомых слов, нейронная сеть смогла правильно охарактеризовать тоновую окраску сообщений.

Заключение

Таким образом, изучена возможность нейронных сетей применяться в качестве инструмента для семантического анализа отзывов о поставщиках автосервисных услуг. Для обучения созданной нейронной сети использовались корпуса твитов [9], расширенные отзывами о фирмах-поставщиках автосервисных услуг, собранных автором. Функция активации для скрытых слоев использовалась Relu, продемонстрирована возможность нейронной сети работать с большим массивом данных об отзывах компаний предоставляющих услуги автосервиса, в том числе для корпоративных клиентов, что в целом необходимо для получения характеристики поставщика. Анализ информации о поставщике в интернете становится одним из ключевых факторов отбора поставщика, но для объективности и уменьшения времени выполнения такого анализа необходимо обработать большое количество данных, в статье показано, что для этого возможно применять семантический анализ на основе нейронных сетей.