В современной бизнес-среде на многих предприятиях коммуникация с клиентами является одним из ключевых инструментов создания и поддержания позитивного имиджа компании, и, как следствие, привлечения новых клиентов и сохранения лояльности действующих. От этого напрямую зависит прибыль компании. Представление о нормах делового общения могут разниться в разных языках. А когда продукция компании ориентирована на международный рынок, становится необходимостью вести коммуникацию на языке международного общения (английском), который не является родным для сотрудников бизнес-предприятий в России. В этом случае, даже безупречное владение грамматикой языка, не всегда гарантирует, что речь русскоязычного сотрудника будет адекватно восприниматься представителем другой культуры. Так, например, простой перенос императивных конструкций на английский может показаться англоязычному собеседнику грубостью со стороны представителя компании.
Именно с такой проблемой столкнулись сотрудники ООО «Тридиви»: не всегда русскоязычный сотрудник способен понять и предугадать эмоции собеседника в ответ на не вполне удачно построенную фразу на английском языке. Данный проект направлен на разработку решения для задачи обучения сотрудников компании навыкам эмпатичной коммуникации через создание чатбота, функционирование которого опирается на разработанную и обученную нами модель на основе LLM.
Проект включает разработку аугментированного набора языковых данных, собранных с форума поддержки клиентов ООО «Тридиви» по продукту Nuitrack SDK. Набор данных был составлен из реплик сотрудников, характеризующихся различной степенью эмпатичности. Эмпатичность определялась экспертами — каждую реплику оценивалась в два этапа:
1) реплики распределялись на три категории — эмпатичные (1), нейтральные (0) и индифферентные (характеризующиеся отсутствием эмпатии) (категоризацию проводили 3 эксперта), а также данные были размечены по некоторым дополнительным лингвистическим параметрам.
2) пул индифферентных реплик — дополнительно оценивался по степени эмпатичности (каждая реплика — оценивалась 4 экспертами, общая оценка определялась как среднее арифметическое оценок экспертов). Полученные оценки нормировались таким образом, что диапазон индифферентных оценок составлял [-1; 0].
Полученные набор данных был аугментирован с применением ряда приемов библиотеки nlpaug.
Результатом этой работы стали два набора данных:
— базовый, включающий исходные реплики с оценками эмпатичности 1, 0 или числа в диапазоне [-1;0], всего 186 реплик
— аугментированный, включающий расширенные с помощью библиотеки набор данных на основе базового, всего 1500 реплик.
Аугментированный набор данных стал основной для дообучения модели DistilBERT (показавшей наилучший результат) для распознавания эмпатичности высказывания сотрудника на английском языке, около 86% предсказаний на тестовой выборке не отклонялись от эталонного значение по метрике MSE более чем на 0,25.
Команда проекта
- Бабина Ольга Ивановна,
заведующий кафедрой «Лингвистика и перевод»,
кандидат филологических наук, доцент - Артюшенко Екатерина,
выпускник кафедры «Лингвистика и перевод»,
направление подготовки 45.03.03
«Фундаментальная и прикладная
лингвистика»
- Кругликова Светлана,
выпускник кафедры «Лингвистика и перевод»,
направление подготовки 45.03.03
«Фундаментальная и прикладная
лингвистика» - Корнаева Софья,
выпускник кафедры «Лингвистика и перевод»,
направление подготовки 45.03.03
«Фундаментальная и прикладная
лингвистика»
Мы выражаем искреннюю благодарность ООО «Тридиви» и лично А.Г. Цыбулевскому, Л.И. Лешукову и Д.И. Яковлеву за предоставленные корпоративных регламентов по составлению эмпатичных ответов сотрудников техподдержки, что обеспечило возможность произвести разметку корпуса текстов ответов сотрудников предприятия, а также ценные советы и рекомендации, высказанные в процессе работы над проектом.