Оценка качества технической документации с помощью машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)» = Quality assessment of technical documentation using machine learning

Чиндаркар, Санкет Сунил

Details

Title	Оценка качества технической документации с помощью машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)» = Quality assessment of technical documentation using machine learning
Creators	Чиндаркар Санкет Сунил
Scientific adviser	Кожубаев Юрий Нургалиевич
Other creators	Селиванова Елена Николаевна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint	Санкт-Петербург, 2020
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	извлечение данных ; коэффициент ошибок в словах ; искусственная нейронная сеть ; RapidMiner ; машинный перевод ; data mining ; word error rates ; artificial neural network ; machine translation
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.01
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
Links	Отзыв руководителя ; Рецензия ; Отчет о проверке на объем и корректность внешних заимствований
DOI	10.18720/SPBPU/3/2020/vr/vr20-1432
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key	ru\spstu\vkr\6227
Record create date	6/29/2020

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

In the context of an increasingly networked world, the availability of highquality translations is critical for success in the context of the growing international competition. Massive worldwide companies as well as medium sized companies are required to provide well translated, high quality technical documentation for their customers not only to be successful in the market but also to meet legal regulations and to avoid lawsuits. Therefore, this thesis focuses on the evaluation of translation quality, specifically regarding technical documents, and answers two central questions: How can the translation quality of technical documents be calculated, given the original document is available? How can the translation quality of technical documents be assessed, given the original document is not available? These questions are answered using state-of-the-art machine learning algorithms and translation evaluation metrics in the context of a knowledge discovery process. The evaluations are done on a sentence level and recombined on a document level by binarily categorizing sentences as computerized translation and specialized translation. The research is based on a database including 22,327 sentences and 32 translation evaluation attributes, which are used for optimizations of five different machine learning approaches. An optimization method consisting of 795,000 evaluations shows a calculation accuracy of up to 72.24% for the binary classification. Based on the established sentence-based classification systems, documents are classified using recombination of the affiliated sentences and a background for rating document quality is established. Therefore, the taken approach absolutely creates a сategorization and assessment approach.

условиях растущего сетевого мира доступность высококачественных переводов имеет решающее значение для успеха в условиях растущей международной конкуренции. Массовые компании по всему миру, а также компании среднего размера обязаны предоставлять своим клиентам качественную техническую документацию с хорошим переводом не только для того, чтобы добиться успеха на рынке, но и для соблюдения правовых норм и избежания судебных исков. Таким образом, этот тезис посвящен оценке качества перевода, в частности технической документации, и отвечает на два основных вопроса: Как рассчитать качество перевода технических документов, если имеется оригинальный документ? Как можно оценить качество перевода технических документов, если исходный документ недоступен? Для ответа на эти вопросы используются самые современные алгоритмы машинного обучения и метрики оценки перевода в контексте процесса обнаружения знаний. Оценки выполняются на уровне предложений и рекомбинируются на уровне документов путем двоичной классификации предложений как компьютерного перевода и специализированного перевода. Исследование основано на базе данных, включающей 22 327 предложений и 32 атрибута оценки перевода, которые используются для оптимизации пяти различных подходов машинного обучения. Метод оптимизации, состоящий из 795 000 оценок, показывает точность расчета до 72,24% для двоичной классификации. На основе установленных систем классификации на основе предложений документы классифицируются с использованием рекомбинации связанных предложений, и устанавливается фон для оценки качества документов. Следовательно, принятый подход абсолютно создает подход категоризации и оценки.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

...