Details

Title: Token-wise approach to span-based question answering // Информатика, телекоммуникации и управление. – 2022. – С. 64-72
Creators: Pismenny A. A.; Sokolov E. A.
Organization: The Conference on Software Engineering and Information Management (SEIM-2022)
Imprint: 2022
Collection: Общая коллекция
Subjects: Радиоэлектроника; Искусственный интеллект. Экспертные системы; question-and-answer systems; range of correct answers; threaded approach; search for a range of correct answers; machine learning; natural language processing; pre-trained language models; вопросно-ответные системы; диапазон правильных ответов; потокенный подход; поиск диапазона правильных ответов; машинное обучение; обработка естественного языка; предобученные языковые модели
UDC: 004.8
LBC: 32.813
Document type: Article, report
File type: PDF
Language: English
DOI: 10.18721/JCSTCS.15405
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\70548

Allowed Actions: Read Download (0.5 Mb)

Group: Anonymous

Network: Internet

Annotation

Language model pre-training has led to significant success in a wide range of natural language processing problems. It was shown that modern deep contextual language models need only a small number of new parameters for fine-tuning due to the power of the base model. Nevertheless, the statement of the problem itself makes it possible to search the new approaches. Our experiments relate to the span-based question answering, one of machine reading comprehension (MRC) tasks. Recent works use loss functions that require the model to predict start and end positions of the answer in a contextual document. We propose a new loss that additionally requires the model to correctly predict whether each token is contained in the answer. Our hypothesis is that explicit using of this information can help the model to learn more dependencies from data. Our solution also includes a new span’s ranking and a no-answer examples selection scheme. We also propose approaches of accounting for information about relative positions of tokens in the dependency trees and the types of dependencies in relation to syntax-guided attention. The experiments showed that our approaches increase the quality of BERT-like models on SQuAD datasets.

Использование предобученных языковых моделей привело к значительному успеху в решении широкого круга задач обработки естественного языка. Показано, что современным глубоким языковым моделям достаточно лишь небольшого количества дополнительных параметров для дообучения, что достигается за счет мощности базовой модели. Тем не менее сама постановка задачи дообучения позволяет искать новые подходы. Наши эксперименты связаны с задачей поиска диапазона правильного ответа, одним из вариантов задачи машинного понимания прочитанного. Во многих современных работах для данной задачи используются функции потерь, которые предполагают, что модель предсказывает только позиции начала и конца правильного ответа в документе. В данной статье предложена новая функция потерь, направленная на то, чтобы модель правильно предсказывала, содержится ли каждый токен в правильном ответе. Наша гипотеза состоит в том, что явное использование этой информации может помочь модели извлечь больше зависимостей из данных. Предложенное решение также включает в себя новую схему ранжирования диапазонов и схему выбора примеров без правильного ответа. Предложены подходы к учету информации о взаимном расположении токенов в деревьях зависимостей и типах зависимостей вместе с использованием синтаксически управляемого механизма внимания. Эксперименты показывают, что предложенные подходы повышают результат для решений, основанных на модели BERT (Bidirectional Encoder Representations from Transformers), на наборах данных SQUAD (Stanford Question Answering Dataset).

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 100
Last 30 days: 10
Detailed usage statistics