Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Объектом исследования является алгоритмы текстовой классификации и обработки текстовой информации, необходимые для построения инструментария выявления интересов пользователей по написанным ими текстам. При реализации алгоритма были рассмотрены библиотеки для работы с http-запросами и парсинга html кода (Unirest, Jsoup), а также библиотеки для классификации и машинного обучения (Weka, Meka). Были изучены различные алгоритмы классификации текстовых данных, средства обработки текста и метрики анализа данных. Из многообразия существующих в настоящее время алгоритмов текстовой классификации был выбран наиболее оптимальный по результатам оценки работы классификатор - дерево принятия решения C4.5. В первой главе работы описана общая теоретическая информации по теме данной работы, а также информация о существующих реализациях аналогичных ПП. Во второй главе работы описаны причины создания инструментария, а также модель реализованного ПП. В третьей главе работы описаны все требования к ПП, а также все исполняющие классы и методы ПП. В заключительной четвертой главе работы описаны результаты работы ПП. Результатом данной работы является разработка и реализация алгоритма определения интересов пользователей по написанным ими текстам и разделения этих интересов на постоянные и временные. Данная информация интересна для построения рекомендательной системы или использования в контекстной рекламе. Созданный алгоритм уникален и не имеет аналогов среди известных используемых системах определения интересов пользователей.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 870
Last 30 days: 1 Detailed usage statistics |