Сбор, обработка и анализ текстовых данных на примере текстовых данных с платформы LiveJournal: бакалаврская работа: 09.03.04

Смирнов, Максим Романович

Details

	Table	Card	RUSMARC

Title:	Сбор, обработка и анализ текстовых данных на примере текстовых данных с платформы LiveJournal: бакалаврская работа: 09.03.04
Creators:	Смирнов Максим Романович
Scientific adviser:	Александрова Ольга Всеволодовна
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2016
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	информационный поиск; поисковый робот; датасет
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	09.03.04
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/2/v17-1058
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	RU\SPSTU\edoc\37253

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Объектом исследования является алгоритмы текстовой классификации и обработки текстовой информации, необходимые для построения инструментария выявления интересов пользователей по написанным ими текстам. При реализации алгоритма были рассмотрены библиотеки для работы с http-запросами и парсинга html кода (Unirest, Jsoup), а также библиотеки для классификации и машинного обучения (Weka, Meka). Были изучены различные алгоритмы классификации текстовых данных, средства обработки текста и метрики анализа данных. Из многообразия существующих в настоящее время алгоритмов текстовой классификации был выбран наиболее оптимальный по результатам оценки работы классификатор - дерево принятия решения C4.5. В первой главе работы описана общая теоретическая информации по теме данной работы, а также информация о существующих реализациях аналогичных ПП. Во второй главе работы описаны причины создания инструментария, а также модель реализованного ПП. В третьей главе работы описаны все требования к ПП, а также все исполняющие классы и методы ПП. В заключительной четвертой главе работы описаны результаты работы ПП. Результатом данной работы является разработка и реализация алгоритма определения интересов пользователей по написанным ими текстам и разделения этих интересов на постоянные и временные. Данная информация интересна для построения рекомендательной системы или использования в контекстной рекламе. Созданный алгоритм уникален и не имеет аналогов среди известных используемых системах определения интересов пользователей.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 870
Last 30 days: 1
Detailed usage statistics