Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
В эпоху глобализации и быстрого развития информационных технологий растёт потребность в эффективных инструментах для обработки и анализа текстовых данных на разных языках. Несмотря на значительный прогресс в области обработки естественного языка создание модели, способной классифицировать тексты на нескольких языках, остаётся сложной задачей. Однако, применение методов машинного обучения открывает новые возможности в этой области. В этой работе представляются модели машинного обучения, разработанные для классификации текстовых данных на нескольких языках. Они основаны на использовании передовых алгоритмов NLP и инструментов классификации, реализованных с использованием Python, PyTorch, FastText и Sclearn. Данные модель предоставляют инструмент для эффективной классификации текстовых данных, что может быть применимо в различных областях, таких как машинный перевод, анализ тональности текста и автоматическая классификация документов. В результате анализа были произведены предположения, какая модель наиболее эффективна с учетом доступных производственных ресурсов. Некоторые модели могли быть оптимальными для использования в условиях ограниченной памяти или высокой скорости ответа, в то время как другие модели могли обеспечить более высокую точность классификации, но требовать больших вычислительных ресурсов.
In the era of globalization and rapid development of information technologies, there is a growing demand for effective tools to process and analyze textual data in multiple languages. Despite significant progress in natural language processing, building a model capable of classifying texts in multiple languages remains a challenging task. However, the application of machine learning methods opens up new possibilities in this field. This paper presents machine learning models developed for text classification in multiple languages. They are based on state-of-the-art NLP algorithms and classification tools implemented using Python, PyTorch, FastText, and Scikit-learn. These models provide an efficient tool for text classification that can be applied in various domains, such as machine translation, sentiment analysis, and automatic document classification. Based on the analysis, assumptions were made about which model is most efficient considering the available production resources. Some models may be optimal for limited memory conditions or high response speed, while others may provide higher classification accuracy but require larger computational resources.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 7
Last 30 days: 4 Detailed usage statistics |