Машинное обучение для ранжирования поисковой выдачи контента: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика»

Саськов, Лев Кириллович

Details

	Table	Card	RUSMARC

Title:	Машинное обучение для ранжирования поисковой выдачи контента: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика»
Creators:	Саськов Лев Кириллович
Scientific adviser:	Григорьев Андрей Борисович
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint:	Санкт-Петербург, 2023
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	поиск; ранжирование; машинное обучение; градиентный бустинг; search; ranking; machine learning; gradient boosting
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	01.03.02
Speciality group (FGOS):	010000 - Математика и механика
DOI:	10.18720/SPBPU/3/2023/vr/vr24-308
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally:	New arrival
Record key:	ru\spstu\vkr\27160

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Целью данной работы является разработка модели машинного обучения для ранжирования результатов поиска публикаций в социальной сети. Предметом исследования работы являются поисковые системы, современные методы ранжирования. Решаемые задачи: A. Исследование устройства современных поисковых систем. B. Формализация задачи ранжирования. C. Анализ различных подходов и вариантов решения задачи ранжирования. D. Введение факторов элемента поисковой выдачи и его функции релевантности. E. Сбор необходимых данных для обучения ранжированию. F. Анализ существующих моделей машинного обучения для ранжирования и выбор подходящей для ранжирования поисковой выдачи. G. Обучение модели. H. Изучение метода A/B тестирования для проверки гипотез. I. Проверка построенной модели. В ходе работы была исследована архитектура поисковых систем, рассмотрена задача ранжирования и различные методы машинного обучения для ее решения. В результате работы была введена функция релевантности элемента поисковой выдачи, проведен сбор необходимых данных за заданный период, построен ансамбль деревьев с помощью метода градиентного бустинга, реализованного в библиотеке XGBoost, а также доказана эффективность полученной модели доверительным A/B тестированием. Описанные в данной работе методы и полученные результаты универсальны и подходят для многих поисковых систем, используя их, можно улучшить поисковое ранжирование и пользовательский опыт клиентов сервиса.

The purpose of this work is to develop a machine learning model for ranking the search results of content. The subject of this work is search engines, modern methods of ranking search results. Tasks to be solved: A. Research modules of modern search engines and their work. B. Formalization of the ranking problem. C. Analysis of different approaches and options for solving the ranking problem. D. Introduction of SERP element factors and its relevance function. E. Gathering the necessary data for ranking training. F. Analysis of existing machine learning models for ranking and selection of suitable search results for ranking. G. Model Training. H. Learning the A/B testing method to test the built model. I. Checking the built model. In the course of the work, the architecture of search engines was investigated, the ranking problem and various machine learning methods for its solution were considered. As a result of the work, the relevance function of the SERP element was introduced, the necessary data was collected for a given period, an ensemble of trees was built using the gradient boosting method implemented in the XGBoost library, and the effectiveness of the resulting model was proved by confidence A/B testing. The methods described in this paper and the results obtained are universal and suitable for many search engines, using them you can improve the search ranking and user experience of service customers.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Машинное обучение для ранжирования поисковой выдачи контента
- Машинное обучение для ранжирования поисковой выдачи контента
  - Введение
  - 1. Современные поисковые системы и особенности их работы
  - 2. Задача ранжирования
  - 3. Построение модели ранжирования с помощью методов машинного обучения
  - 4. Проверка результатов работы модели
  - Заключение
  - Список сокращений и условных обозначений
  - Словарь терминов
  - Список использованных источников
  - Приложение 1. Код для обучения модели ранжирования на языке Python
  - Приложение 2. Код A/B тестирования на языке Python
Microsoft Word - Saskov_Zadanie_VKR.docx
Машинное обучение для ранжирования поисковой выдачи контента
- Машинное обучение для ранжирования поисковой выдачи контента
  - Введение
  - 1. Современные поисковые системы и особенности их работы
  - 2. Задача ранжирования
  - 3. Построение модели ранжирования с помощью методов машинного обучения
  - 4. Проверка результатов работы модели
  - Заключение
  - Список сокращений и условных обозначений
  - Словарь терминов
  - Список использованных источников
  - Приложение 1. Код для обучения модели ранжирования на языке Python
  - Приложение 2. Код A/B тестирования на языке Python

Usage statistics

Access count: 1
Last 30 days: 1
Detailed usage statistics

Details

Annotation

Document access rights

Table of Contents

Usage statistics