Модель машинного обучения для классификации текстовых данных на нескольких языках: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»

Головин, Кирилл Романович

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Модель машинного обучения для классификации текстовых данных на нескольких языках: выпускная квалификационная работа бакалавра: направление 02.03.02 «Фундаментальная информатика и информационные технологии» ; образовательная программа 02.03.02_02 «Информатика и компьютерные науки»
Авторы:	Головин Кирилл Романович
Научный руководитель:	Малеев Олег Геннадьевич
Организация:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения:	Санкт-Петербург, 2023
Коллекция:	Выпускные квалификационные работы; Общая коллекция
Тематика:	машинное обучение; классификация текста; обработка естественного языка; языковая модель; NLP; python; pytorch; machine learning; text classification; natural language processing; language model
Тип документа:	Выпускная квалификационная работа бакалавра
Тип файла:	PDF
Язык:	Русский
Уровень высшего образования:	Бакалавриат
Код специальности ФГОС:	02.03.02
Группа специальностей ФГОС:	020000 - Компьютерные и информационные науки
DOI:	10.18720/SPBPU/3/2023/vr/vr23-3314
Права доступа:	Доступ по паролю из сети Интернет (чтение)
Ключ записи:	ru\spstu\vkr\22697

Разрешенные действия: –

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В эпоху глобализации и быстрого развития информационных технологий растёт потребность в эффективных инструментах для обработки и анализа текстовых данных на разных языках. Несмотря на значительный прогресс в области обработки естественного языка создание модели, способной классифицировать тексты на нескольких языках, остаётся сложной задачей. Однако, применение методов машинного обучения открывает новые возможности в этой области. В этой работе представляются модели машинного обучения, разработанные для классификации текстовых данных на нескольких языках. Они основаны на использовании передовых алгоритмов NLP и инструментов классификации, реализованных с использованием Python, PyTorch, FastText и Sclearn. Данные модель предоставляют инструмент для эффективной классификации текстовых данных, что может быть применимо в различных областях, таких как машинный перевод, анализ тональности текста и автоматическая классификация документов. В результате анализа были произведены предположения, какая модель наиболее эффективна с учетом доступных производственных ресурсов. Некоторые модели могли быть оптимальными для использования в условиях ограниченной памяти или высокой скорости ответа, в то время как другие модели могли обеспечить более высокую точность классификации, но требовать больших вычислительных ресурсов.

In the era of globalization and rapid development of information technologies, there is a growing demand for effective tools to process and analyze textual data in multiple languages. Despite significant progress in natural language processing, building a model capable of classifying texts in multiple languages remains a challenging task. However, the application of machine learning methods opens up new possibilities in this field. This paper presents machine learning models developed for text classification in multiple languages. They are based on state-of-the-art NLP algorithms and classification tools implemented using Python, PyTorch, FastText, and Scikit-learn. These models provide an efficient tool for text classification that can be applied in various domains, such as machine translation, sentiment analysis, and automatic document classification. Based on the analysis, assumptions were made about which model is most efficient considering the available production resources. Some models may be optimal for limited memory conditions or high response speed, while others may provide higher classification accuracy but require larger computational resources.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Авторизованные пользователи СПбПУ
	Интернет		Анонимные пользователи

Статистика использования

Количество обращений: 7
За последние 30 дней: 5
Подробная статистика