Details

Title: Оценка качества технической документации с помощью машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»
Creators: Чиндаркар Санкет Сунил
Scientific adviser: Кожубаев Юрий Нургалиевич
Other creators: Селиванова Елена Николаевна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: извлечение данных; коэффициент ошибок в словах; искусственная нейронная сеть; RapidMiner; машинный перевод; data mining; word error rates; artificial neural network; machine translation
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 09.04.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1432
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\6227

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

In the context of an increasingly networked world, the availability of highquality translations is critical for success in the context of the growing international competition. Massive worldwide companies as well as medium sized companies are required to provide well translated, high quality technical documentation for their customers not only to be successful in the market but also to meet legal regulations and to avoid lawsuits. Therefore, this thesis focuses on the evaluation of translation quality, specifically regarding technical documents, and answers two central questions: How can the translation quality of technical documents be calculated, given the original document is available? How can the translation quality of technical documents be assessed, given the original document is not available? These questions are answered using state-of-the-art machine learning algorithms and translation evaluation metrics in the context of a knowledge discovery process. The evaluations are done on a sentence level and recombined on a document level by binarily categorizing sentences as computerized translation and specialized translation. The research is based on a database including 22,327 sentences and 32 translation evaluation attributes, which are used for optimizations of five different machine learning approaches. An optimization method consisting of 795,000 evaluations shows a calculation accuracy of up to 72.24% for the binary classification. Based on the established sentence-based classification systems, documents are classified using recombination of the affiliated sentences and a background for rating document quality is established. Therefore, the taken approach absolutely creates a сategorization and assessment approach.

условиях растущего сетевого мира доступность высококачественных переводов имеет решающее значение для успеха в условиях растущей международной конкуренции. Массовые компании по всему миру, а также компании среднего размера обязаны предоставлять своим клиентам качественную техническую документацию с хорошим переводом не только для того, чтобы добиться успеха на рынке, но и для соблюдения правовых норм и избежания судебных исков. Таким образом, этот тезис посвящен оценке качества перевода, в частности технической документации, и отвечает на два основных вопроса: Как рассчитать качество перевода технических документов, если имеется оригинальный документ? Как можно оценить качество перевода технических документов, если исходный документ недоступен? Для ответа на эти вопросы используются самые современные алгоритмы машинного обучения и метрики оценки перевода в контексте процесса обнаружения знаний. Оценки выполняются на уровне предложений и рекомбинируются на уровне документов путем двоичной классификации предложений как компьютерного перевода и специализированного перевода. Исследование основано на базе данных, включающей 22 327 предложений и 32 атрибута оценки перевода, которые используются для оптимизации пяти различных подходов машинного обучения. Метод оптимизации, состоящий из 795 000 оценок, показывает точность расчета до 72,24% для двоичной классификации. На основе установленных систем классификации на основе предложений документы классифицируются с использованием рекомбинации связанных предложений, и устанавливается фон для оценки качества документов. Следовательно, принятый подход абсолютно создает подход категоризации и оценки.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 7
Last 30 days: 0
Detailed usage statistics