К вопросу о разработке информационно-насыщенных чат-ботов в гуманитарной сфере коммуникации
Автор: Шереметьева Светлана Олеговна, Бабина Ольга Ивановна, Зиновьева Анастасия Юрьевна, Неручева Екатерина Дмитриевна
Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics
Рубрика: Прикладная лингвистика
Статья в выпуске: 4 т.19, 2022 года.
Бесплатный доступ
Статья посвящена проблемам разработки чат-ботов, актуальность которых значительно возросла в связи с повсеместным распространением гаджетов. Дается обзор основных методологических и технологических подходов к созданию приложений-ботов. Отмечается важная роль информационно-насыщенных чат-ботов в гуманитарной сфере коммуникации и особая сложность их создания. Отмечается необходимость создания коммуникационных чат-ботов для адаптации студентов (в том числе иностранных) к образовательной среде вуза и региона, что в проводимых современными учеными исследованиях практически не затрагивается. Представлен опыт создания контента адаптационного чат-бота для иностранных студентов, ориентированного на обучение в ЮУрГУ. Описывается методология разработки контента адаптационного чат-бота, в том числе структуры сценария и диалоговой базы, на основе социально-психологического анализа проблемных маркеров. Приведены качественные и количественные характеристики элементов контента.
Адаптационный чат-бот, сценарий, контент, иностранные студенты, российский вуз, юургу
Короткий адрес: https://sciup.org/147239327
IDR: 147239327 | DOI: 10.14529/ling220409
Текст научной статьи К вопросу о разработке информационно-насыщенных чат-ботов в гуманитарной сфере коммуникации
В связи с возрастающим количеством иностранных студентов в вузах РФ проблема их адаптации к культуре, особенностям быта и ценностям нашей страны требует особого внимания не только потому, что неприспособленность к новым условиям жизни значительно снижает качество обучения иностранцев в российских вузах, но и потому, что это может нанести российскому образованию определенный имиджевый урон. Проблема адаптации иностранных студентов, получающих образование в вузах РФ, актуальность которой не вызывает сомнений [1, 5, 7, 8], в основном решается созданием сайтов для иностранных студентов, которые при всей их полезности, как правило, дают лишь общие сведения о России и обучении в вузах нашей страны. С помощью таких сайтов, особенно учитывая языковой барьер, иностранным студентам практически невозможно найти информацию об особенностях жизни в регионах обучения и региональных вузах. Очевидно, такие ресурсы не могут помочь иностранным студентам оперативно адаптироваться ни к повседневной жизни, ни к особенностям образовательного процесса конкретного вуза. Учитывая повсеместное распространение гаджетов, и в частности чат-ботов, ставших популярными средствами общения, коллектив исследователей
ЮУрГУ предлагает решать указанную проблему созданием адаптационного чат-бота Сократ-20201, контент которого ориентирован на адаптацию иностранных студентов к жизни в Уральском регионе и обучению в ЮУрГУ.
Чат-бот – это программа для имитации разговора с человеком с целью решения различных задач [3]. Такие программы-помощники позволяют пользователям чувствовать к себе персональное внимание, получая ответы на интересующие их вопросы. Существующие чат-боты в основном ориентированы на потребности различных видов бизнеса, направлены на улучшение бизнес-процессов и обеспечение своих клиентов легкодоступной информацией о деятельности компаний, побуждая их покупать свою продукцию или услуги. Такие чат-боты широко используются для обслуживания клиентов в социальных сетях и мессенджерах, таких как ВКонтакте, Telegram и других. Как правило, такие помощники ориентированы на очень узкую предметную область, что позволяет ограничить контент небольшим объемом информации, сформулированной небольшим ин- вентарем лингвистических средств. Разработка информационно-насыщенных чат-ботов в настоящее время остается достаточно сложной задачей, а использование такого вида приложений, охватывающих различные аспекты адаптации студентов (в том числе иностранных) к образовательной среде вуза, в проводимых современными учеными исследованиях практически не затрагивается. Таким образом, создание контента адаптационного чат-бота, ориентированного на географическое, учебное и культурное пространство конкретного вуза (ЮУрГУ), является новаторской разработкой.
Статья организована следующим образом. В разделе 1 представлены основные подходы к разработке чат-ботов. Раздел 2 описывает методологию разработки основного компонента адаптационного чат-бота Сократ-2020 –структуры и диалоговой базы контента сценария. В заключении рассмотрены итоги исследования.
-
1 . Основные подходы к разработке чат-ботов
-
2 . Разработка сценария
адаптационного чат-бота Сократ-2020 для иностранных студентов ЮУрГУ
Типовой цикл работы любого чат-бота включает следующие этапы: получение запроса в виде текста или звучащей речи2, понимание запроса на естественном языке (ЕЯ), выполнение действий по определенному сценарию и выдачу ответа на естественном языке [3, 9].
При создании чат-ботов фундаментальными концепциями понимания являются распознавание намерений (интентов) и объектов. Поскольку подавляющее число чат-ботов ориентировано на потребности бизнеса, то к объектам относят прежде всего именованные сущности – сгруппированные по категориям обозначения людей, компаний и местоположений – и числовые объекты, которые распознаются как числа, валюты и проценты. Например, запрос на поездку на остров Валаам 10 июля может быть разбит следующим образом: билеты на паром [интент] / бронирование гостиницы [интент] / остров Валаам [место] / 10 июля [дата].
В зависимости от того, как решается проблема понимания запроса и выдачи ответа, 66еа-лии66яяются возможности и ограничения чат-ботов. Каждый из этих основных этапов может быть реализован на основе заранее построенных баз данных или знаний в рамках различных технологий обработки ЕЯ. Так, технология лингвистических правил (rule-based approach) может включать глубокий анализ вопроса пользователя на морфологическом, синтаксическом и семантическом уровнях и генерацию ответа на основе фор- мальных представлений смысла. В этом случае базы знаний содержат лексиконы с большим количеством лингвистической, в том числе семантической информации, часто на основе лингвистических онтологий [6]. При этом в рамках лингвистического подхода понимание может осуществляться и на основе «поверхностного» анализа вопроса пользователя с использованием баз данных, содержащих предполагаемые вопросы пользователя (часто сгруппированные в классы – «неглубокие» онтологии) и готовые ответы, соотнесенные с отдельным вопросом или целым классом. Пониманием вопроса пользователя в этом случае считается вопрос из базы данных, наиболее близкий к заданному (например, но не исключительно, с наибольшим количеством совпавших ключевых слов). В общем случае проблема автоматического определения близости высказываний на естественном языке далеко не тривиальна и, в свою очередь, решается на разных уровнях глубины лингвистического анализа.
Корректность результатов лингвистических методов при достаточной покрываемости баз зна-ний/данных достаточно высока, но при этом требует огромного количества усилий, времени и, как результат, финансов. Поэтому сегодня популярны не требующие глубоких баз знаний статистические и гибридные подходы к обработке естественного языка, а также подходы к решению проблемы понимания вопросов пользователя с помощью технологий искусственного интеллекта, включающих машинное и глубокое обучение.
Технологии обучения чат-ботов различны. Самыми конкурентоспособными считаются технологии на основе классификационных моделей 66ешинного обучения, когда чат-бота обучают на фразах клиентов. В ходе обучения бот учится помещать эти фразы (и схожие с ними по смыслу) в нужный класс. Таким образом, в основе обучения чат-ботов лежит решение задачи классификации на основе автоматического распознавания близости фраз на ЕЯ. Начальным этапом при реализации такого подхода является построение баз обучающих данных-примеров классификации: название класса и списки соответствующих классам фраз. Первый шаг любого процесса, связанного с машинным обучением, – это подготовка данных [4]. При этом, чтобы обучить чат-бота, необходимо иметь тысячи примеров взаимодействий между клиентами и сотрудниками службы поддержки компании в чатах, так как для того чтобы обученный впоследствии чат-бот мог эффективно распознавать вопросы пользователей без вмешательства человека, требуется огромное количество 66еалии-стичных, ориентированных на конкретную задачу диалоговых обучающих данных. Получение этих данных – основное узкое место при разработке чат-бота. Определенный вклад в решение этой проблемы вносят выложенные в интернет списки одно- и многоязычных наборов данных разговоров из чатов, разбитых на вопросы и ответы, а также данные служб поддержки клиентов [2]. Машинное обучение достаточно хорошо работает при создании чат-ботов, предметная область которых значительно ограничена (продажи, помощь в установке приложений и т. д.), что позволяет достаточно легко предусмотреть возможные вопросы пользователя.
Создание высококачественных чат-ботов (необучаемых или обучаемых), которые понимают произвольные вопросы и/или имеют гуманитарнокоммуникационную ориентацию с большим охватом информации, представляет собой значительно более трудную задачу, требует сложных ресурсозатратных технологий обработки естественного языка и/или искусственного интеллекта, что ограничивает их разработку рамками бизнес-транзакционных и/или исследовательских проектов. На практике же широко используются более простые чат-боты, которые предлагают пользователю готовые вопросы с ответами «да»/«нет» и/или фиксированными текстовыми ответами.
Привлекательность чат-бота во многом зависит от сценария – последовательности диалоговых сообщений, основанных на выборе пользователя, – а также информативности и легкости понимания реплик диалога. Основные этапы разработки сценария включают определение цели, структуры и контента. В нашем случае цель чат-бота состоит в адаптации иностранных студентов ЮУрГУ к условиям обучения в нашем вузе, а также общей культурно-социальной среде РФ с учетом специфики Уральского региона и города Челябинска в частности. Такая цель предполагает большую информационную насыщенность контента и необходимость охвата большого количества тем.
На основе анализа вариантов сценариев чат-ботов в качестве наиболее реалистичной и обеспечивающей достаточную вариативность и длину диалога выбрана структура, которая строится от главной оси дерева с большим набором ветвей. Ветви сходятся в ключевых узлах, что позволяет возвращаться к предыдущим этапам диалога и не приводит к его принудительному завершению. Таким образом обеспечивается наиболее благоприятная среда общения и простое взаимодействие с пользователем. При этом, учитывая, что знание русского языка иностранными студентами, как правило, довольно ограничено и им может быть достаточно трудно формулировать вопросы на русском языке, диалог построен так, чтобы получить интересующую студента информацию можно было путем простого клика на реплику чат-бота.
Контент сценария чат-бота Сократ-2020 создавался в 2 этапа. На первом этапе были очерчены границы информационного поля контента настоящего чат-бота с опорой на результаты глубоких исследований социологов и психологов ЮУрГУ по выявлению «негативных» маркеров устойчивого запроса иностранных студентов, проведенных в рамках проекта Сократ-20203,4. Исследования проведены на материале опросов в форме индивидуальных и групповых фокусированных интервью среди 405 иностранных студентов из 20 зарубежных стран в период с 01.02.2021 г. по 30.06.2021 г. В результате были выявлены наиболее проблемные общие сферы адаптации (языковой барьер, быт, досуг, культура, коммуникация, учеба, личная безопасность, природно-климатические условия, личностно-психологическая сфера) с их определенной детализацией. Например, к сфере безопасности отнесены на только опасения подвергнуться нападению, но и страх за свое здоровье.
Границы информационного поля контента настоящего чат-бота определялись, с одной стороны, стремлением покрыть наиболее проблемные зоны адаптации, а с другой стороны, соображениями реалистичности этой работы как в плане качества советов и рекомендаций, так и в плане ограниченности временных и трудовых ресурсов разработчиков. Поэтому из всего списка общих и детализированных проблемных маркеров нами выделен список основных тем диалога, ориентированных на решение практических проблем повседневной жизни иностранных студентов. Например, оставлена в стороне личностно-психологическая сфера, поскольку авторы настоящей статьи являются прикладными лингвистами, а не психологами. С другой стороны, нами были добавлены такие актуальные темы, как «сотовая связь», «мобильные приложения» и некоторые другие.
На втором этапе разработки контента каждая тема была развернута в виде конкретных реплик, вопросов и ответов диалога, сформулированных по возможности коротко и четко, но не формаль-
-
3 Салганова Н.А., Гафнер С.В. Отчёт по научноисследовательской работе: «Негативные» (проблемные) маркеры устойчивого запроса иностранных студентов 01.02.2021 г. – 30.04.2021 г., ЮУрГУ.
-
4 Морозова С.В., Черняева Ю.Е. Отчёт по научноисследовательской работе по теме: Выявление «негативных» (проблемных) маркеров устойчивого запроса иностранных студентов 01.05.2021 г. – 30.06.2021 г., ЮУрГУ.
Темы и количественные характеристики элементов контента чат-бота Сократ-2020
Темы N |
Уровень |
Основные узлы*1 |
Отдельные сообщения** |
Связи (кнопки)*** |
0 |
Верхний уровень |
5 |
13 |
16 |
1 |
Пространство ЮУрГУ (A) |
101 |
249 |
201 |
2 |
Здоровье (B) |
8 |
35 |
16 |
3 |
Русский язык (C) |
7 |
20 |
11 |
4 |
Экономия (D) |
2 |
4 |
3 |
5 |
Где поесть (E) |
47 |
76 |
88 |
6 |
Досуг в городе (F) |
238 |
597 |
472 |
7 |
Досуг в ЮУрГУ (J) |
5 |
13 |
11 |
8 |
Сотовая связь (H) |
30 |
62 |
55 |
9 |
Транспорт (L) |
34 |
62 |
46 |
10 |
Финансы (M) |
27 |
81 |
49 |
11 |
Мобильные приложения (N) |
16 |
89 |
38 |
12 |
Кухня России (O) |
56 |
139 |
105 |
13 |
Правила поведения (I) |
20 |
84 |
43 |
14 |
Праздники в России (K) |
42 |
99 |
62 |
15 |
Маршрут (Z) |
4 |
4 |
7 |
ИТОГО |
642 |
1627 |
1223 |
Примечание . * Основной узел – блок сообщений, от которого идут варианты ответа.
** Отдельные сообщения – части блока сообщений, разделенные тильдой (без учета кнопок).
*** Связи – линии между узлами, переход по которым осуществляется при помощи кнопок.
но. Реплики были расположены в определенной последовательности и встроены в структуру сценария чат-бота, где каждой теме соответствует ветвь дерева. Для ответов на вопросы использованы различные форматы: выбор «да/нет», текстовая формулировка, а также ссылки на видео или информационные сайты, что позволило значительно увеличить информационную насыщенность чат-бота, включить дополнительный объем необходимой пользователю информации и сделать ее представление более интересным.
В таблице приведен список тем и количественные характеристики элементов контента чат-бота Сократ-2020, созданного в рамках указанного проекта. Фрагмент блок-схемы и контента сценария чат-бота Сократ-2020 для социальной адаптации иностранных студентов ЮУрГУ с использованием возможностей, непосредственно предоставляемых университетом, представлен на рисунке, где в прямоугольниках показаны автоматически всплывающие в интерфейсе одна за другой реплики-советы Сократа, ромбы – это реплики, которые являются общей частью заранее сформулированных вопросов-кнопок (показаны без обрамления). Клик на кнопки-вопросы дает ответы и ведет пользователя далее по веткам диалога. Иконки камеры и глобуса ведут на соответствующие видео или сайты.
Заключение
В данной статье была предложена методология создания информационно-насыщенных чат-ботов в гуманитарной сфере коммуникации на примере ориентированного на обучение в ЮУрГУ адаптационного чат-бота для иностранных студентов. Данное исследование является одной из основных частей проекта адаптационного чат-бота и значительно отличается от других исследований по разработке чат-ботов, в основном фокусирующих свое внимание на решении проблем продаж, обеспечения пользователей инструкциями по установке и работе с приложениями и т. д.
Качественное и количественное исследование разработанных нами ресурсов для создания информационно-насыщенных адаптационных чат-ботов в сфере образования открывает ряд новых возможностей для исследований, связанных, например, с теоретическими аспектами социолингвистики, а также с развитием технологий обработки естественного языка.
Разработанный контент чат-бота Сократ-2020 может служить базой подключения модуля машинного обучения, например, для ведения диалога с пользователем на основе произвольно впечатываемых и автоматически распознаваемых вопросов с генерацией соответствующих реплик диалога.

Изучай
Культуру России
Русский язык
Русский
Больше о Центре in угадаю, что тс интересует
Культура ^РОССИИ/
Смотри, <априме.
Хочешь узнать
4иокультурнои-адаптации
Узнай об этом подробнее
Физкультурноспортивный
Где заняться спортом в ЮУрГУ
Где в ЮУрГУ заняться танцами, музыкой деатро м
В ЮУрГУ есть свои тренажерные залы, бассейны, спортивные комплексы, услуги в которых дешевле, чем в городских, или вовсе бесплатны для студентов вуза
Как проходят встречи в разговорном клубе к
Центр стрелковой подготовки
Там есть и разговорный клуб русского языка!
по телефону +7(351) 272-31-01.
<— главного корпуса <—
Центр находится в аудитории 374
(восточное крыло).
Познакомься с другими иностранными студентами и волонтерами в Центре социокультурной адаптации.
Можешь позвонить им по телефону +7(351) 272-31-01.
Посещай интересные мероприятия.
Занимайся спортом
Не унывай!
Что делать, если , скучаешь по дому <
Запишись в кружки.
Блок-схема фрагментов сценария и контента чат-бота Сократ-2020
Список литературы К вопросу о разработке информационно-насыщенных чат-ботов в гуманитарной сфере коммуникации
- Абакумова, И.В. Межкультурная социально-психологическая адаптация студентов в полиэтническом образовательном пространстве вуза / И.В. Абакумова, Л.Ц. Кагермазова, З.Ш. Генердукаева // Российский психологический журнал. - 2016. - Т. 13. - № 3. - С. 53-72.
- Аббакумов, А.А. Использование мессенджеров для информирования слушателей учебных заведений / А.А. Аббакумов, Д.П. Сидоров, А.И. Егунова // Образовательные технологии и общество. - 2018. - № 3. - https://cyberleninka.ru/article/n/ispolzovanie-messendzherov-dlya-informirovaniya-slushateley-uchebnyh-zavedeniy (дата обращения: 16.05.22).
- Вичугова, А. Machine Learning и не только: как устроены чат-боты / А. Вичугова. - https://www.bigdataschool.ru/blog/how-chat-bot-is-made (дата обращения: 16.05.2022).
- Гатулин, Р.Р. Использование мессенджера Telegram для реализации технологии электронного обучения в вузе / Р.Р. Гатулин, Д.А. Колупаева // Санкт-Петербургский образовательный вестник. - 2017. - № 11-12 (15-16). - https://cyberleninka.ru/article/n/ispolzovanie-messendzhera-telegram-dlya-realizatsii-tehnologii-elektronnogo-obucheniya-v-vuze (дата обращения: 16.05.2022).
- Клюшникова, Е.В. Проблемы адаптации иностранных студентов в России / Е.В. Клюшникова // Вестник ТвГУ. Серия "Педагогика и психология". - 2018. - Вып. 1. - С. 133-140. https://core.ac.uk/download/pdf/158554317.pdf.
- Матвеева, Н.Ю. Технологии создания и применения чат-ботов / Н.Ю. Матвеева, А.В. Золотарюк // Научные записки молодых исследователей. - 2018. - № 1. - https://cyberleninka.ru/article/n/tehnologii-sozdaniya-i-primeneniya-chat-botov (дата обращения: 16.05.2022).
- Мукомель, В.И. Региональные особенности интеграции и идентичности внутрироссийских иноэтничных мигрантов / В.И. Мукомель // Межнациональное согласие в общероссийском и региональном измерении. Социокультурный и религиозный контексты: монография / отв. ред. Л.М. Дробижева. - М.: ФНИСЦ РАН, 2018. - С. 386-413. - http://www.isras.ru/publ.html?id=6450.
- Погукаева, А.В. Адаптация иностранных студентов в российском вузе / А.В. Погукаева, Е.Л. Омельянчук, Л.Н. Коберник // Современные проблемы науки и образования.-2016. - № 3. - https://science-education.ru/ru/article/view?id=24651 (дата обращения: 16.05.2022).
- Automatic Question Answering. Proceedings of the RIAO2000 Conference / J. Cowie, E. Ludovic, H. Molino-Salgado et al. Paris, France, 2000, pp. 1548-1557.