Детальная информация
Название | Сбор, обработка и анализ текстовых данных на примере текстовых данных с платформы LiveJournal: бакалаврская работа: 09.03.04 |
---|---|
Авторы | Смирнов Максим Романович |
Научный руководитель | Александрова Ольга Всеволодовна |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
Выходные сведения | Санкт-Петербург, 2016 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | информационный поиск ; поисковый робот ; датасет |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/2/v17-1058 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Ключ записи | RU\SPSTU\edoc\37253 |
Дата создания записи | 07.03.2017 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Объектом исследования является алгоритмы текстовой классификации и обработки текстовой информации, необходимые для построения инструментария выявления интересов пользователей по написанным ими текстам. При реализации алгоритма были рассмотрены библиотеки для работы с http-запросами и парсинга html кода (Unirest, Jsoup), а также библиотеки для классификации и машинного обучения (Weka, Meka). Были изучены различные алгоритмы классификации текстовых данных, средства обработки текста и метрики анализа данных. Из многообразия существующих в настоящее время алгоритмов текстовой классификации был выбран наиболее оптимальный по результатам оценки работы классификатор - дерево принятия решения C4.5. В первой главе работы описана общая теоретическая информации по теме данной работы, а также информация о существующих реализациях аналогичных ПП. Во второй главе работы описаны причины создания инструментария, а также модель реализованного ПП. В третьей главе работы описаны все требования к ПП, а также все исполняющие классы и методы ПП. В заключительной четвертой главе работы описаны результаты работы ПП. Результатом данной работы является разработка и реализация алгоритма определения интересов пользователей по написанным ими текстам и разделения этих интересов на постоянные и временные. Данная информация интересна для построения рекомендательной системы или использования в контекстной рекламе. Созданный алгоритм уникален и не имеет аналогов среди известных используемых системах определения интересов пользователей.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 870
За последние 30 дней: 0