Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет = Road pavement assessment of the North-West Federal District using sentiment analysis of the Internet user reviews

Селиверстов, Я. А.; Никитин, К. В.; Шаталова, Н. В.; Киселев, А. А.

Детальная информация

Название	Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет = Road pavement assessment of the North-West Federal District using sentiment analysis of the Internet user reviews // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Сер.: Информатика. Телекоммуникации. Управление. – 2019. – Т. 12, № 3. — С. 7-24
Авторы	Селиверстов Я. А. ; Никитин К. В. ; Шаталова Н. В. ; Киселев А. А.
Выходные сведения	2019
Коллекция	Общая коллекция
Тематика	Вычислительная техника ; Манипулирование данными ; транспортные магистрали ; Интернет ; тональность отзывов пользователей ; автоматический анализ текстов ; интеллектуальные транспортные системы ; краулеры ; наивные байесовские алгоритмы ; transport highway ; Internet ; tonality of user reviews ; automatic analysis of texts ; intelligent transportation systems ; crawlers ; naive Bayesian algorithms
УДК	004.62
ББК	32.973-018.2
Тип документа	Статья, доклад
Язык	Русский
DOI	10.18721/JCSTCS.12301
Права доступа	Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи	RU\SPSTU\edoc\61937
Дата создания записи	17.12.2019

Разрешенные действия

Прочитать Загрузить (1,2 Мб)

Группа	Анонимные пользователи
Сеть	Интернет

В результате анализа выявлено, что социальные сети, тематические сообщества, транспортные порталы являются источником актуальной информации о дорожно-транспортной обстановке. В статье рассмотрена задача анализа состояния транспортных магистралей Северо-Западного федерального округа по отзывам, размещенным в web-пространстве. Для решения этой задачи разработана система автоматической классификации отзывов на основе тонового классификатора. Проведен анализ библиотек с открытым исходным кодом для тематического сбора и анализа данных. Осуществлена разработка краулера с использованием фреймворка Scrapy на языке Python3. Рассмотрены методы векторизации и лемматизации текстов и их реализация в библиотеке Scikit-Learn: Bag-of-Words, N-gram, CountVectorizer и TF-IDF Vectorizer. Для классификации применялся наивный байесовский алгоритм и модель линейного классификатора с оптимизацией стохастического градиентного спуска. В качестве обучающей выборки использована база размеченных отзывов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использована стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации на разных классификаторах. По результатам валидации лучшей оказалась линейная модель со схемой N-gram и векторизатором TF-IDF. В ходе апробации разработанной системы проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей Северо-Западного федерального округа. На основе результатов произведена цветовая разметка дорог, отражающая наглядность результатов исследования. Сделаны выводы и определены перспективы дальнейшего развития данного исследования.

As a result of the analysis, it was revealed that social networks, thematic communities, transport portals are a source of actual information about the traffic situation. The article deals with the task of analyzing the road pavement assessment of the North-West Federal District from reviews posted in the web. To solve this problem, a system for automatic classification of reviews based on the sentiment classifier has been developed. The crawler was developed using the Scrapy framework in Python3. The methods of vectorization and lemmatization of texts and their implementation in the Scikit-Learn library are considered: Bag-of-Words, N-gram, CountVectorizer and TF-IDF Vectorizer. For the classification, a naive Bayes algorithm and a linear classifier model with optimization of stochastic gradient descent were used. As a training sample, a base of marked reviews from the Twitter resource was used. The classifier was trained, during which the cross-validation strategy and the ShuffleSplit method were used. According to the results of validation, the linear model with the N-gram scheme and the TF-IDF Vectorizer turned out to be the best. During the approbation of the developed system, the collection and analysis of feedback related to the quality of transport networks in the North-West Federal District was conducted. Based on the results, a color marking of the roads was produced, reflecting the visibility of the research results. Conclusions and prospects for the further development of this study are given.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Все

Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Сер.: Информатика. Телекоммуникации. Управление. — Санкт-Петербург: СПбПУ, 2019-. — Электрон. журнал. — Периодичность: 4 раза в год. — Выходит с 07.2019. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Сер.: Информатика. Телекоммуникации. Управление. — Санкт-Петербург: СПбПУ, 2019-. Т. 12, № 3, 2019. — 1 файл (3,22 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j19-414.pdf>.

Количество обращений: 586
За последние 30 дней: 18

Подробная статистика