Details
| Title | Сбор, обработка и анализ текстовых данных на примере текстовых данных с платформы LiveJournal: бакалаврская работа: 09.03.04 |
|---|---|
| Creators | Смирнов Максим Романович |
| Scientific adviser | Александрова Ольга Всеволодовна |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий |
| Imprint | Санкт-Петербург, 2016 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | информационный поиск ; поисковый робот ; датасет |
| Document type | Bachelor graduation qualification work |
| Language | Russian |
| Level of education | Bachelor |
| Speciality code (FGOS) | 09.03.04 |
| Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
| DOI | 10.18720/SPBPU/2/v17-1058 |
| Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Record key | RU\SPSTU\edoc\37253 |
| Record create date | 3/7/2017 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
Объектом исследования является алгоритмы текстовой классификации и обработки текстовой информации, необходимые для построения инструментария выявления интересов пользователей по написанным ими текстам. При реализации алгоритма были рассмотрены библиотеки для работы с http-запросами и парсинга html кода (Unirest, Jsoup), а также библиотеки для классификации и машинного обучения (Weka, Meka). Были изучены различные алгоритмы классификации текстовых данных, средства обработки текста и метрики анализа данных. Из многообразия существующих в настоящее время алгоритмов текстовой классификации был выбран наиболее оптимальный по результатам оценки работы классификатор - дерево принятия решения C4.5. В первой главе работы описана общая теоретическая информации по теме данной работы, а также информация о существующих реализациях аналогичных ПП. Во второй главе работы описаны причины создания инструментария, а также модель реализованного ПП. В третьей главе работы описаны все требования к ПП, а также все исполняющие классы и методы ПП. В заключительной четвертой главе работы описаны результаты работы ПП. Результатом данной работы является разработка и реализация алгоритма определения интересов пользователей по написанным ими текстам и разделения этих интересов на постоянные и временные. Данная информация интересна для построения рекомендательной системы или использования в контекстной рекламе. Созданный алгоритм уникален и не имеет аналогов среди известных используемых системах определения интересов пользователей.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 870
Last 30 days: 0