Детальная информация

Название: Оценка качества технической документации с помощью машинного обучения: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_17 «Интеллектуальные системы (международная образовательная программа)»
Авторы: Чиндаркар Санкет Сунил
Научный руководитель: Кожубаев Юрий Нургалиевич
Другие авторы: Селиванова Елена Николаевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: извлечение данных; коэффициент ошибок в словах; искусственная нейронная сеть; RapidMiner; машинный перевод; data mining; word error rates; artificial neural network; machine translation
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1432
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\6227

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

In the context of an increasingly networked world, the availability of highquality translations is critical for success in the context of the growing international competition. Massive worldwide companies as well as medium sized companies are required to provide well translated, high quality technical documentation for their customers not only to be successful in the market but also to meet legal regulations and to avoid lawsuits. Therefore, this thesis focuses on the evaluation of translation quality, specifically regarding technical documents, and answers two central questions: How can the translation quality of technical documents be calculated, given the original document is available? How can the translation quality of technical documents be assessed, given the original document is not available? These questions are answered using state-of-the-art machine learning algorithms and translation evaluation metrics in the context of a knowledge discovery process. The evaluations are done on a sentence level and recombined on a document level by binarily categorizing sentences as computerized translation and specialized translation. The research is based on a database including 22,327 sentences and 32 translation evaluation attributes, which are used for optimizations of five different machine learning approaches. An optimization method consisting of 795,000 evaluations shows a calculation accuracy of up to 72.24% for the binary classification. Based on the established sentence-based classification systems, documents are classified using recombination of the affiliated sentences and a background for rating document quality is established. Therefore, the taken approach absolutely creates a сategorization and assessment approach.

условиях растущего сетевого мира доступность высококачественных переводов имеет решающее значение для успеха в условиях растущей международной конкуренции. Массовые компании по всему миру, а также компании среднего размера обязаны предоставлять своим клиентам качественную техническую документацию с хорошим переводом не только для того, чтобы добиться успеха на рынке, но и для соблюдения правовых норм и избежания судебных исков. Таким образом, этот тезис посвящен оценке качества перевода, в частности технической документации, и отвечает на два основных вопроса: Как рассчитать качество перевода технических документов, если имеется оригинальный документ? Как можно оценить качество перевода технических документов, если исходный документ недоступен? Для ответа на эти вопросы используются самые современные алгоритмы машинного обучения и метрики оценки перевода в контексте процесса обнаружения знаний. Оценки выполняются на уровне предложений и рекомбинируются на уровне документов путем двоичной классификации предложений как компьютерного перевода и специализированного перевода. Исследование основано на базе данных, включающей 22 327 предложений и 32 атрибута оценки перевода, которые используются для оптимизации пяти различных подходов машинного обучения. Метод оптимизации, состоящий из 795 000 оценок, показывает точность расчета до 72,24% для двоичной классификации. На основе установленных систем классификации на основе предложений документы классифицируются с использованием рекомбинации связанных предложений, и устанавливается фон для оценки качества документов. Следовательно, принятый подход абсолютно создает подход категоризации и оценки.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 7
За последние 30 дней: 0
Подробная статистика