Исследование тензорных вычислителей компании «ХайТэк» на задачах локализации БПЛА в городской среде по видеопотоку: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий» = Study of HiTech tensor accelerators for UAV localization in an urban environment using video stream

Рудь, Иван Васильевич

Details

Title	Исследование тензорных вычислителей компании «ХайТэк» на задачах локализации БПЛА в городской среде по видеопотоку: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий» = Study of HiTech tensor accelerators for UAV localization in an urban environment using video stream
Creators	Рудь Иван Васильевич
Scientific adviser	Громов Виктор Никифорович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2026
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	БПЛА ; визуальная локализация ; городская среда ; GNSS denied ; инс/ins ; регрессия координат ; нейросетевой инференс ; resnet ; resnext ; agrotechsim ; датасет ; тензорный вычислитель ; linq h ; производительность ; FPS ; latency ; UAV ; visual localization ; urban environment ; ins ; coordinate regression ; neural network inference ; dataset ; tensor accelerator ; performance
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	09.04.02
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-931
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\40507
Record create date	5/8/2026

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена исследованию подхода визуальной локализации беспилотного летательного аппарата в городской сцене по кадрам видеопотока с целью повышения устойчивости навигации в условиях деградации спутниковых измерений (GNSS denied) и накопления ошибки инерциальной навигационной системы. В качестве практической постановки рассматривается нейросетевая регрессия координат (и, в расширенном варианте, ориентации) по входному изображению, что обеспечивает стандартизируемый вычислительный конвейер «кадр → инференс → оценка положения». Экспериментальная база сформирована в симуляционной городской среде AgroTechSim: подготовлен датасет с фиксированным разбиением train/val/test = 20513/2564/2565 и единым форматом аннотаций (координаты и кватернион ориентации). Для сравнения архитектур выполнено воспроизводимое офлайн тестирование моделей ResNet18 (2D: lat, lon), ResNeXt50_32x4d (3D: lat, lon, alt) и ResNet34 (7D: lat, lon, alt, x, y, z, w) на тестовой выборке с расчетом метрик регрессии и интегральной 2D ошибки позиционирования. По результатам сравнения на test split наилучшее качество 2D локализации показала ResNet18 (средняя 2D ошибка 2.9486, P95 9.4507, P99 11.3465 в единицах координат датасета). ResNet34 обеспечивает близкую точность по 2D локализации (средняя 3.0432, P95 9.7855) при расширенном выходе, а ResNeXt50_32x4d демонстрирует более высокую ошибку позиционирования (средняя 3.4172, P95 10.4514, P99 13.1199) при сопоставимом качестве оценки высоты (MAE_alt порядка 0.06). Отдельно рассмотрена вычислительная реализуемость и аппаратная апробация на тензорных вычислителях LinQ H компании «ХайТэк». Показатели производительности представлены в виде стендового протокола ранее выполненных измерений (повторное снятие FPS/latency в момент подготовки работы ограничено недоступностью стенда). Зафиксированы ориентиры пропускной способности: ResNet34 – 443 FPS, ResNet50 – 430 FPS, MobileNetV2 – 142 FPS, YOLO11l obb – 20 FPS. По совокупности результатов сформулированы инженерные рекомендации выбора модели с учетом компромисса «точность–скорость» и ограничений воспроизводимости стендовых измерений. В процессе работы использовались: Python, библиотеки машинного обучения (в т.ч. PyTorch), средства подготовки и аудита датасета, скрипты воспроизводимой офлайн оценки качества, а также инструментарий деплоя/инференса на платформе LinQ H.

This work investigates visual localization of an unmanned aerial vehicle in an urban scene using video frames in order to improve navigation robustness under degraded satellite positioning (GNSS denied) and inertial navigation drift. The study focuses on a CNN based regression approach that estimates the vehicle position (and, in an extended setup, orientation) directly from an image, enabling a standardized processing pipeline “frame → inference → position estimate”. The experimental dataset was generated in the AgroTechSim urban simulation environment. A labeled dataset with fixed splits train/val/test = 20513/2564/2565 was prepared, using a unified annotation format (position coordinates and quaternion orientation). Reproducible offline evaluation was performed for three models: ResNet18 (2D: lat, lon), ResNeXt50_32x4d (3D: lat, lon, alt), and ResNet34 (7D: lat, lon, alt, x, y, z, w) on the test split. The evaluation includes standard regression metrics and an integral 2D positioning error. The best 2D localization accuracy on the test split was achieved by ResNet18 (mean 2D error 2.9486, P95 9.4507, P99 11.3465 in dataset coordinate units). ResNet34 provides comparable 2D localization accuracy (mean 3.0432, P95 9.7855) with an extended output, while ResNeXt50_32x4d shows a higher positioning error (mean 3.4172, P95 10.4514, P99 13.1199) with similar altitude estimation accuracy (MAE_alt around 0.06). Computational feasibility and hardware execution on HiTech LinQ H tensor accelerators were also considered. Performance results are reported as previously recorded bench measurements (repeating FPS/latency measurements during thesis preparation is limited due to the unavailability of the test stand). The recorded throughput values are: ResNet34 – 443 FPS, ResNet50 – 430 FPS, MobileNetV2 – 142 FPS, and YOLO11l obb – 20 FPS. Based on the combined accuracy and performance evidence, engineering recommendations are provided for model selection under accuracy–speed trade offs and measurement reproducibility constraints. The work was implemented using Python, machine learning frameworks (including PyTorch), dataset preparation and auditing tools, reproducible offline evaluation scripts, and the deployment/inference toolchain for LinQ H.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

...