Детальная информация

Название: Построение модели обработки естественного языка для решения задачи классификации транскрибаций: выпускная квалификационная работа бакалавра: направление 01.03.03 «Механика и математическое моделирование» ; образовательная программа 01.03.03_03 «Математическое моделирование процессов нефтегазодобычи»
Авторы: Смирнова Ирина Максимовна
Научный руководитель: Руколайне Сергей Анатольевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения: Санкт-Петербург, 2023
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; нейронные сети; обработка естественного языка; мультиклассовая классификация; Трансформер; БЕРТ; транскрибации; machine learning; neural networks; natural language processing; multi-class classification; Transformer; BERT; transcriptions
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 01.03.03
Группа специальностей ФГОС: 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2023/vr/vr24-118
Права доступа: Доступ по паролю из сети Интернет (чтение)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\26679

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе была построена модель обработки естественного языка для решения задачи многоклассовой классификации транскрибаций обращений клиентов в контактные центры компании с целью автоматизации процесса распределения вопросов клиентов по продуктам и сервисам компании. В ходе работы были изучены различные подходы к решению задач в области обработки естественного языка и задач классификации текстов. Первоначально был проведен анализ и фильтрация данных. Также был предобработан текст транскрибаций, удалены стоп-слова и обезличены персональные данные. Модель классификации была построена на основе архитектуры трансформера и модели БЕРТ, которая подразумевает использование механизма внимания в нейронных сетях, нескольких кодирующих компонент и специального токена, содержащего информацию о решении задачи классификации. При валидации модель показала достаточно высокую точность по всем уровням классификации, что позволяет использовать ее для решения промышленных задач. Также были предприняты несколько попыток повышения качества работы модели, некоторые из которых показали хорошие результаты и были внедрены в процесс классификации транскрибаций.

In this work, a natural language processing model was built to solve the problem of multiclass classification of transcriptions of customer calls to the companys contact centers in order to automate the process of distributing customer questions across the companys products and services. In the course of the work, various approaches to solving problems in the field of natural language processing and text classification problems were studied. Initially, data analysis and filtering was carried out. The transcription text was also pre-processed, stop words were removed and personal data was anonymized. The classification model was built on the basis of the transformer architecture and the BERT model, which implies the use of the attention mechanism in neural networks, several encoding components and a special token containing information about the solution of the classification problem. During validation, the model showed a sufficiently high accuracy for all levels of classification, which allows it to be used to solve industrial problems. Several attempts were also made to improve the quality of the model, some of which showed good results and were implemented into the transcription classification process.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи СПбПУ Прочитать
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 9
За последние 30 дней: 2
Подробная статистика