Применение нейронных сетей для обработки мультимедийного контента (100 примеров на Python): монография

Молодяков, Сергей Александрович

Details

Title	Применение нейронных сетей для обработки мультимедийного контента (100 примеров на Python): монография
Creators	Молодяков Сергей Александрович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Инженерно-строительный институт. Высшая школа промышленно-гражданского и дорожного строительства
Imprint	Санкт-Петербург: ПОЛИТЕХ-ПРЕСС, 2025
Collection	Учебная и учебно-методическая литература ; Общая коллекция
Subjects	Нейронные сети ; Python
UDC	004.032.26 ; 004.438
Document type	Other
File type	PDF
Language	Russian
Speciality code (FGOS)	09.00.00
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/2/id25-4
Rights	Доступ по паролю из сети Интернет (чтение, печать)
Additionally	New arrival
Record key	RU\SPSTU\edoc\75514
Record create date	3/19/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В монографии излагаются вопросы применения нейронных сетей для обработки мультимедийного контента. В представленных алгоритмах обработки и редактирования данных кроме нейронных сетей используются функции библиотек OpenMP, FFmpeg и других. Приведены 100 примеров полностью рабочих программ, написанных на языке Python. Примеры разделены по главам: алгоритмы преобразования файлов картинок, алгоритмы преобразования видеофайлов, алгоритмы работы с текстом и аудиофайлами, а также приводятся примеры использования алгоритмов обработки и преобразования медийных файлов в различных прикладных задачах. Представленные примеры являются программами, которые написаны студентами Высшей школы программной инженерии Санкт-Петербургского политехнического университета Петра Великого. Монография предназначена для начинающих инженеров и специалистов в области проектирования и применения видеосистем для обработки изображений и звука. Примеры программ позволяют познакомиться с возможностями по применению нейронных сетей, упростить изучение алгоритмов преобразования медийных данных. Монография может быть полезна студентам, проходящим подготовку по направлениям 09.03.01 «Информатика и вычислительная техника», 09.03.04 «Программная инженерия».

The monograph discusses the application of neural networks for multimedia content processing. In addition to neural networks, the presented algorithms for data processing and editing use functions from libraries such as OpenMP, FFmpeg, and others. It includes 100 fully working program examples written in Python. The examples are divided into chapters: image file transformation algorithms, video file transformation algorithms, text and audio file manipulation algorithms, as well as examples of using media file processing and transformation algorithms in various applied tasks. These examples are programs written by students of the Higher School of Software Engineering at Peter the Great St. Petersburg Polytechnic University. The monograph is intended for beginner engineers and specialists in the field of designing and applying video systems for image and sound processing. The program examples allow readers to explore the capabilities of applying neural networks and simplify the study of media data transformation algorithms. This monograph can be useful for students studying in the following specialties: 09.03.01 “Informatics and Computer Science,” 09.03.04 “Software Engineering”.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Оглавление
Введение.
Глава 1. Нейронные сети для обработки мультимедийной информации
1.1. Нейронные сети для работы с видео и изображениями
1.2. Нейронные сети для работы с аудио
Глава 2. Алгоритмы работы с изображениями
2.1. Преобразование черно-белой фотографии в цветную. Deoldify
2.2. Коррекция свойств фотографии. PyTorch и Torchvision
2.3. Удаление фона с изображения. rRemBG
2.4. Сегментация изображения. U-Net
2.5. Сегментация изображения. SAM
2.6. Сегментация изображений для пяти классов объектов на основе набора данных MS-COCO
2.7. Сегментация одежды на изображениях. SegNet
2.8. Сегментация изображения для двух классов. U-Net, OXFORD IIIPet
2.9. Определение 10 разных классов на фотографиях. TensorFlow и CIFAR-10
2.10. Определение суммы монет на фото с использованием нейросети Yolov8
2.11. Определение элементов на изображениях. Faster R-CNN
2.12. Определение рукописных цифр на изображении. TensorFlow MNIST
2.13. Определение пола и возраста человека по фото. Gender_deploy.prototxt
2.14. 3D-сцена из нескольких фото Luma AI
2.15. Повышение разрешения с использованием модели EDSR
2.16. Распознавание объектов на изображениях. MobileNet
2.17. Распознавание позы человека. Movenet
2.18. Распознавание буквы на изображении. TensorFlow
2.19. Распознавание позиции текста. EAST OpenCV
2.20. Распознавание размеров на схеме товара. Tesseraсt
2.21. Распознавание текстовой информации на скане изображения YOLOv8
2.22. Замена части изображения по его маске и текстовому запросу. Stable Diffusion
2.23. Распознавание марок автомобилей по фотографии. ResNet50
2.24. Детектирование отпечатков пальцев. TensorFlow
2.25. Распознавание объектов. Xception
2.26. Классификация статических картинок. TensorFlow
2.27. Поиск и кластеризация объектов на фото с использованием конвертеров фото в вектор YOLO
2.28. Распознавание рукописных слов. TensorFlow
2.29. Сегментация изображений и прозрачный фон. DeepLabV3
2.30. Определения состояния неба по фотографии. TensorFlow
2.31. Детальное описание статических изображений в архитектуре CNN+LSTM. TensorFlow
2.32. Распознавание эмоций, возраста и пола на изображении. DeepFace
Глава 3. Алгоритмы распознавания и преобразования видео
3.1. Классификация эмоций на видео. TensorFlow
3.2. Классификация объектов на видео. MobileNetSSD
3.3. Трекинг с использованием нейросети Yolov8
3.4. Обнаружения черт лица в реальном времени. Dlib
3.5. Запись распознанного текста на видео. SpeechRecognition
3.6. Управление громкостью с помощью жестов рук. MediaPipe
3.7. Виртуальный гардероб. Dlib
3.8. Трекинг объектов и подсчет при пересечении линии. YOLOv9
3.9. Поиск человека на видео по фотографии лица. Face_recognition
3.10. Создание видео по картинке. Replicate и Stable Video Diffusion
3.11. Распознавание жестов. MediaPipe
3.12. Распознавания объектов с веб-камеры. ResNet50
3.13. Распознавание лиц с веб-камеры. Face_recognition
3.14. Определение объектов на видео. YOLO
3.15. Распознавание цифр при использовании языка жестов. TensorFlow Sequential
3.16. Распознание цвета с веб-камеры. TensorFlow
3.17. Добавление объектов на видео. MTCNN
3.18. Распознавание текста с видеокамеры. Tesseract
3.19. Приложение для обработки изображений с видеокамеры. Keras
3.20. Обнаружение ям на дорогах в режиме реального времени. YOLOv8
Глава 4. Алгоритмы работы с текстом и аудио
4.1. Анализ эмоциональной окраски аудио. Transformers и SpeechRecognition
4.2. Разделение аудиофайла на вокал и аккомпанемент. Deezer Spleeter
4.3. Распознавание речи. SpeechRecognition
4.4. Анализ тональности текста. Keras TensorFlow
4.5. Поиск похожих товаров на основе текстовых описаний. Universal
4.6. Генерация текста с использованием GRU
4.7. Извлечение из текста ответов на вопросы. YandexGPT
4.8. Преобразование текста в речь с возможностью перевода исходного текста. Eden AI, GTTS
4.9. Предсказание популярности статьи по ее содержанию. TensorFlow
4.10. Распознавание речи на русском языке с переводом на английский язык. Speech Recognition
4.11. Анализ эмоциональной окраски и субъективности текста. TextBlob
4.12. Распознавание речи в видео и преобразование ее в текст. SpeechRecognition
4.13. Генерация музыки и звуков по описанию. MusicGen
4.14. Вербализация изображения. Yolov7 и RuGPT3
4.15. Конвертер римских чисел. Tesseract
4.16. Генерация текстовых описаний изображений. CLIP
4.17. Генерация и синтез речи. GPT
4.18. Аннотирование текста с помощью T5Tokenizer
4.19. Автогенерация комментариев к коду с использованием CodeBERT
4.20. Изменение стиля написания текста. YandexGPT
4.21. Классификация отзывов на основе их текстовых описаний. Universal Sentence Encoder
4.22. Рекомендации книг пользователям. Scikit-Learn
Глава 5. Примеры использования нейронных сетей
5.1. Управление мышкой компьютера жестами. Mediapipe
5.2. Запуск программ на компьютере звуковыми командами. SpeechRecognition
5.3. Определение дорожных знаков по изображению. TensorFlow
5.4. Сегментация легких на рентгеновских снимках грудной клетки. U-Net
5.5. Определение пневмонии по рентгеновским снимкам груднойклетки. Xception
5.6. Игра «Rock-paper-scissor». Tensorflow
5.8. Определение счета игральных карт в реальном времени cиспользованием модели Yolov8
5.9. Распознавание шахматных фигур и анализ позиции. YOLO
5.10. Генерация музыки на основе текстового запроса. MusicGen
5.11. Распознавание свежей клубники. TensorFlow
5.12. Возрастная трансформация лица на фотографии. SAM
Глава 6. Примеры telegram-ботов с использованием нейронных сетей
6.1. Распознавание рукописных цифр на фото. TensorFlow
6.2. Детектирование дорожных знаков. Keras
6.3. Распознавание музыкальных треков в голосовых сообщениях. Yandex SpeechKit
6.4. Создание аудиофайла по тексту. Silero
6.5. Повышение разрешения изображения. ESGRAN
6.6. Выполнение арифметических выражений, введенных сизображений. EasyOCR
6.7. Генерация изображения из текста. DALL-E
6.8. Наложение изображения на фон в видеофайле/ распознавание номеров
6.9. Генерация текста программы. DeepSeek Coder
6.10. Распознавание английского текста на картинке. Pytesseract
6.11. Определение возраста и пола человека на изображении или ввидеопотоке. Caffe
6.12. Перевод аудио файлов и голосовых сообщений в текст. Whisper
6.13. Озвучивание текста. Bark
6.14. Переводчик аудио с применением ресурсов Yandex Cloud
Заключение
Список литературы

Access count: 5
Last 30 days: 5

Detailed usage statistics