Исследование тензорных вычислителей компании «ХайТэк» на задачах локализации БПЛА в городской среде по видеопотоку: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий» = Study of HiTech tensor accelerators for UAV localization in an urban environment using video stream

Рудь, Иван Васильевич

Детальная информация

Название	Исследование тензорных вычислителей компании «ХайТэк» на задачах локализации БПЛА в городской среде по видеопотоку: выпускная квалификационная работа магистра: направление 09.04.02 «Информационные системы и технологии» ; образовательная программа 09.04.02_04 «Системный анализ и оптимизация информационных систем и технологий» = Study of HiTech tensor accelerators for UAV localization in an urban environment using video stream
Авторы	Рудь Иван Васильевич
Научный руководитель	Громов Виктор Никифорович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения	Санкт-Петербург, 2026
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	БПЛА ; визуальная локализация ; городская среда ; GNSS denied ; инс/ins ; регрессия координат ; нейросетевой инференс ; resnet ; resnext ; agrotechsim ; датасет ; тензорный вычислитель ; linq h ; производительность ; FPS ; latency ; UAV ; visual localization ; urban environment ; ins ; coordinate regression ; neural network inference ; dataset ; tensor accelerator ; performance
Тип документа	Выпускная квалификационная работа магистра
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	09.04.02
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2026/vr/vr26-931
Права доступа	Доступ по паролю из сети Интернет (чтение)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\40507
Дата создания записи	08.05.2026

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Работа посвящена исследованию подхода визуальной локализации беспилотного летательного аппарата в городской сцене по кадрам видеопотока с целью повышения устойчивости навигации в условиях деградации спутниковых измерений (GNSS denied) и накопления ошибки инерциальной навигационной системы. В качестве практической постановки рассматривается нейросетевая регрессия координат (и, в расширенном варианте, ориентации) по входному изображению, что обеспечивает стандартизируемый вычислительный конвейер «кадр → инференс → оценка положения». Экспериментальная база сформирована в симуляционной городской среде AgroTechSim: подготовлен датасет с фиксированным разбиением train/val/test = 20513/2564/2565 и единым форматом аннотаций (координаты и кватернион ориентации). Для сравнения архитектур выполнено воспроизводимое офлайн тестирование моделей ResNet18 (2D: lat, lon), ResNeXt50_32x4d (3D: lat, lon, alt) и ResNet34 (7D: lat, lon, alt, x, y, z, w) на тестовой выборке с расчетом метрик регрессии и интегральной 2D ошибки позиционирования. По результатам сравнения на test split наилучшее качество 2D локализации показала ResNet18 (средняя 2D ошибка 2.9486, P95 9.4507, P99 11.3465 в единицах координат датасета). ResNet34 обеспечивает близкую точность по 2D локализации (средняя 3.0432, P95 9.7855) при расширенном выходе, а ResNeXt50_32x4d демонстрирует более высокую ошибку позиционирования (средняя 3.4172, P95 10.4514, P99 13.1199) при сопоставимом качестве оценки высоты (MAE_alt порядка 0.06). Отдельно рассмотрена вычислительная реализуемость и аппаратная апробация на тензорных вычислителях LinQ H компании «ХайТэк». Показатели производительности представлены в виде стендового протокола ранее выполненных измерений (повторное снятие FPS/latency в момент подготовки работы ограничено недоступностью стенда). Зафиксированы ориентиры пропускной способности: ResNet34 – 443 FPS, ResNet50 – 430 FPS, MobileNetV2 – 142 FPS, YOLO11l obb – 20 FPS. По совокупности результатов сформулированы инженерные рекомендации выбора модели с учетом компромисса «точность–скорость» и ограничений воспроизводимости стендовых измерений. В процессе работы использовались: Python, библиотеки машинного обучения (в т.ч. PyTorch), средства подготовки и аудита датасета, скрипты воспроизводимой офлайн оценки качества, а также инструментарий деплоя/инференса на платформе LinQ H.

This work investigates visual localization of an unmanned aerial vehicle in an urban scene using video frames in order to improve navigation robustness under degraded satellite positioning (GNSS denied) and inertial navigation drift. The study focuses on a CNN based regression approach that estimates the vehicle position (and, in an extended setup, orientation) directly from an image, enabling a standardized processing pipeline “frame → inference → position estimate”. The experimental dataset was generated in the AgroTechSim urban simulation environment. A labeled dataset with fixed splits train/val/test = 20513/2564/2565 was prepared, using a unified annotation format (position coordinates and quaternion orientation). Reproducible offline evaluation was performed for three models: ResNet18 (2D: lat, lon), ResNeXt50_32x4d (3D: lat, lon, alt), and ResNet34 (7D: lat, lon, alt, x, y, z, w) on the test split. The evaluation includes standard regression metrics and an integral 2D positioning error. The best 2D localization accuracy on the test split was achieved by ResNet18 (mean 2D error 2.9486, P95 9.4507, P99 11.3465 in dataset coordinate units). ResNet34 provides comparable 2D localization accuracy (mean 3.0432, P95 9.7855) with an extended output, while ResNeXt50_32x4d shows a higher positioning error (mean 3.4172, P95 10.4514, P99 13.1199) with similar altitude estimation accuracy (MAE_alt around 0.06). Computational feasibility and hardware execution on HiTech LinQ H tensor accelerators were also considered. Performance results are reported as previously recorded bench measurements (repeating FPS/latency measurements during thesis preparation is limited due to the unavailability of the test stand). The recorded throughput values are: ResNet34 – 443 FPS, ResNet50 – 430 FPS, MobileNetV2 – 142 FPS, and YOLO11l obb – 20 FPS. Based on the combined accuracy and performance evidence, engineering recommendations are provided for model selection under accuracy–speed trade offs and measurement reproducibility constraints. The work was implemented using Python, machine learning frameworks (including PyTorch), dataset preparation and auditing tools, reproducible offline evaluation scripts, and the deployment/inference toolchain for LinQ H.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

...