Модель машинного обучения для классификации текстовых данных на нескольких языках: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»

Головин, Кирилл Романович

Details

	Table	Card	RUSMARC

Title:	Модель машинного обучения для классификации текстовых данных на нескольких языках: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Creators:	Головин Кирилл Романович
Scientific adviser:	Малеев Олег Геннадьевич
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2023
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	машинное обучение; классификация текста; обработка естественного языка; языковая модель; NLP; python; pytorch; machine learning; text classification; natural language processing; language model
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	02.03.02
Speciality group (FGOS):	020000 - Компьютерные и информационные науки
DOI:	10.18720/SPBPU/3/2023/vr/vr23-3314
Rights:	Доступ по паролю из сети Интернет (чтение)
Record key:	ru\spstu\vkr\22697

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В эпоху глобализации и быстрого развития информационных технологий растёт потребность в эффективных инструментах для обработки и анализа текстовых данных на разных языках. Несмотря на значительный прогресс в области обработки естественного языка создание модели, способной классифицировать тексты на нескольких языках, остаётся сложной задачей. Однако, применение методов машинного обучения открывает новые возможности в этой области. В этой работе представляются модели машинного обучения, разработанные для классификации текстовых данных на нескольких языках. Они основаны на использовании передовых алгоритмов NLP и инструментов классификации, реализованных с использованием Python, PyTorch, FastText и Sclearn. Данные модель предоставляют инструмент для эффективной классификации текстовых данных, что может быть применимо в различных областях, таких как машинный перевод, анализ тональности текста и автоматическая классификация документов. В результате анализа были произведены предположения, какая модель наиболее эффективна с учетом доступных производственных ресурсов. Некоторые модели могли быть оптимальными для использования в условиях ограниченной памяти или высокой скорости ответа, в то время как другие модели могли обеспечить более высокую точность классификации, но требовать больших вычислительных ресурсов.

In the era of globalization and rapid development of information technologies, there is a growing demand for effective tools to process and analyze textual data in multiple languages. Despite significant progress in natural language processing, building a model capable of classifying texts in multiple languages remains a challenging task. However, the application of machine learning methods opens up new possibilities in this field. This paper presents machine learning models developed for text classification in multiple languages. They are based on state-of-the-art NLP algorithms and classification tools implemented using Python, PyTorch, FastText, and Scikit-learn. These models provide an efficient tool for text classification that can be applied in various domains, such as machine translation, sentiment analysis, and automatic document classification. Based on the analysis, assumptions were made about which model is most efficient considering the available production resources. Some models may be optimal for limited memory conditions or high response speed, while others may provide higher classification accuracy but require larger computational resources.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 7
Last 30 days: 4
Detailed usage statistics