Построение модели обработки естественного языка для решения задачи классификации транскрибаций: выпускная квалификационная работа бакалавра: направление 01.03.03 «Механика и математическое моделирование» ; образовательная программа 01.03.03_03 «Математическое моделирование процессов нефтегазодобычи»

Смирнова, Ирина Максимовна

Details

	Table	Card	RUSMARC

Title:	Построение модели обработки естественного языка для решения задачи классификации транскрибаций: выпускная квалификационная работа бакалавра: направление 01.03.03 «Механика и математическое моделирование» ; образовательная программа 01.03.03_03 «Математическое моделирование процессов нефтегазодобычи»
Creators:	Смирнова Ирина Максимовна
Scientific adviser:	Руколайне Сергей Анатольевич
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint:	Санкт-Петербург, 2023
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	машинное обучение; нейронные сети; обработка естественного языка; мультиклассовая классификация; Трансформер; БЕРТ; транскрибации; machine learning; neural networks; natural language processing; multi-class classification; Transformer; BERT; transcriptions
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	01.03.03
Speciality group (FGOS):	010000 - Математика и механика
DOI:	10.18720/SPBPU/3/2023/vr/vr24-118
Rights:	Доступ по паролю из сети Интернет (чтение)
Additionally:	New arrival
Record key:	ru\spstu\vkr\26679

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе была построена модель обработки естественного языка для решения задачи многоклассовой классификации транскрибаций обращений клиентов в контактные центры компании с целью автоматизации процесса распределения вопросов клиентов по продуктам и сервисам компании. В ходе работы были изучены различные подходы к решению задач в области обработки естественного языка и задач классификации текстов. Первоначально был проведен анализ и фильтрация данных. Также был предобработан текст транскрибаций, удалены стоп-слова и обезличены персональные данные. Модель классификации была построена на основе архитектуры трансформера и модели БЕРТ, которая подразумевает использование механизма внимания в нейронных сетях, нескольких кодирующих компонент и специального токена, содержащего информацию о решении задачи классификации. При валидации модель показала достаточно высокую точность по всем уровням классификации, что позволяет использовать ее для решения промышленных задач. Также были предприняты несколько попыток повышения качества работы модели, некоторые из которых показали хорошие результаты и были внедрены в процесс классификации транскрибаций.

In this work, a natural language processing model was built to solve the problem of multiclass classification of transcriptions of customer calls to the companys contact centers in order to automate the process of distributing customer questions across the companys products and services. In the course of the work, various approaches to solving problems in the field of natural language processing and text classification problems were studied. Initially, data analysis and filtering was carried out. The transcription text was also pre-processed, stop words were removed and personal data was anonymized. The classification model was built on the basis of the transformer architecture and the BERT model, which implies the use of the attention mechanism in neural networks, several encoding components and a special token containing information about the solution of the classification problem. During validation, the model showed a sufficiently high accuracy for all levels of classification, which allows it to be used to solve industrial problems. Several attempts were also made to improve the quality of the model, some of which showed good results and were implemented into the transcription classification process.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 7
Last 30 days: 6
Detailed usage statistics