Детальная информация

Название: Сбор, обработка и анализ текстовых данных на примере текстовых данных с платформы LiveJournal: бакалаврская работа: 09.03.04
Авторы: Смирнов Максим Романович
Научный руководитель: Александрова Ольга Всеволодовна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2016
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: информационный поиск; поисковый робот; датасет
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/2/v17-1058
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: RU\SPSTU\edoc\37253

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Объектом исследования является алгоритмы текстовой классификации и обработки текстовой информации, необходимые для построения инструментария выявления интересов пользователей по написанным ими текстам. При реализации алгоритма были рассмотрены библиотеки для работы с http-запросами и парсинга html кода (Unirest, Jsoup), а также библиотеки для классификации и машинного обучения (Weka, Meka). Были изучены различные алгоритмы классификации текстовых данных, средства обработки текста и метрики анализа данных. Из многообразия существующих в настоящее время алгоритмов текстовой классификации был выбран наиболее оптимальный по результатам оценки работы классификатор - дерево принятия решения C4.5. В первой главе работы описана общая теоретическая информации по теме данной работы, а также информация о существующих реализациях аналогичных ПП. Во второй главе работы описаны причины создания инструментария, а также модель реализованного ПП. В третьей главе работы описаны все требования к ПП, а также все исполняющие классы и методы ПП. В заключительной четвертой главе работы описаны результаты работы ПП. Результатом данной работы является разработка и реализация алгоритма определения интересов пользователей по написанным ими текстам и разделения этих интересов на постоянные и временные. Данная информация интересна для построения рекомендательной системы или использования в контекстной рекламе. Созданный алгоритм уникален и не имеет аналогов среди известных используемых системах определения интересов пользователей.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 870
За последние 30 дней: 0
Подробная статистика