编写此文档的目的是确认舆情分析系统的需求及系统边界,指导系统的设计。
我们的舆情分析系统主要包括舆情总缆分析、舆情搜索、文章分析、文章评论分析、事件舆情分析、事件舆情预警六大功能模块以及管理员系统配置模块。针对舆情总览分析、舆情搜索、文章分析、文章评论分析、事件舆情分析、事件舆情预警我们的分析数据来源于多个网站关于某一事件的报道文章的爬取,如微博、今日头条、知乎等,但主要集中于微博。管理员配置模块配置的是爬虫的爬虫间隔、舆情事件的展示参数以及系统日志查看。
不论是热点新闻还是娱乐八卦,传播速度远超我们的想象。可以在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。我们的舆情分析系统的目的是通过大数据技术实时获取民众舆论并分析舆论变化情况,同时能够提供舆情预警使得可以引导舆情向好的方向发展。
下图为舆情分析系统整体功能架构图:
系统的数据来源于微博博文与今日头条新闻文章舆情数据的实时爬取,爬取的数据包括文章内容、文章作者、文章点赞量、文章评论量、文章转发量、文章时间、文章评论、文章评论对应的评论者性别、文章评论的点赞量、文章评论的回复量等。 爬虫爬取到的数据为JSON串(表示的是文章对象),文章对象的属性及其说明如下:
评论对象的属性及其说明如下表所示:
系统用户中舆情观察分析员与系统管理员的用例图为:
用表格展示不同领域下近七天事件的热度排名,表格展示的字段有事件名称,时间热度,事件类型,热度排名,点击事件名称可跳转到对于事件的详情页。
用折线图展示不同领域最近七天的舆情热度变化。
用热度地图展示中国范围内所有舆情文章的地域数量分布情况。
提供搜索框,输入事件关键词,将对应的事件名称,事件热度,事件类型用表格的显示展示在搜索框下,点击事件名称可跳转到对应事件详情页。
用表格展示近七天内事件负面评论占比大于预警阈值的事件,表格包括事件名称,事件负面评论占比,负面舆论环比增长率(由最近一天的数据和前一天的数据计算而来),表格可根据事件负面评论占比和环比增长率进行排序,其中正增长用红色字体和增长箭头标识,负增长由绿色字体和下降箭头标识,点击事件名称可跳转至对应事件详情页。
用饼图展示事件负面评论占比排名 TopN 的事件,以及展示事件负面评论环比增长排名 TopN 的事件。
用表格展示近七天事件的热度增长率,表格字段有事件名称、时间热度、增长率,其中正增长用红色字体和增长箭头标识,负增长由绿色字体和下降箭头标识,点击事件名称可跳转至对应事件详情页。
用柱形图标识事件增长率排名靠前的事件,包括事件名称和事件热度增长率。
用词云图展示事件关键词。
用折线图展示事件关注度走势和事件信息量走势,关注度是事件所有文章阅读量(由于无法爬取到阅读量,采用点赞量代替)之和,信息量事件所有文章的数量。
用饼图展示事件核心传播人占比,可设置展示媒体或网民,展示的数据主要有传播人名称和传播量,传播量指文章的转发量。
用折线面积图展示事件关注度环比增长率随时间的变化曲线。
用柱状图展示相关事件文章排名,横坐标是文章作者的名称,纵坐标数据可由按钮切换成点赞数,转发数,评论数。
用地图展示事件文章发表的地域分布(关于某事件的所有文章在全国的数量分布)。
卡片展示热度排名TopN文章的具体内容,作者名称,文章热度,可用走马灯组件进行切换展示。
用时间线按时间展示当前事件文章的发表,展示字段文章时间,文章作者,文章内容。
用词云图展示当前事件下所用评论的关键词。
折线图展示当前事件下所有评论的情感趋势变化,图像中标识出最大值和最小值,横坐标为事件,纵坐标分别为负面评论和正面评论的占比,点击折现右边显示当前横坐标时间之前的所有评论,按照正面,负面,中立进行分类。
用饼状图展示当前事件下评论者的性别占比。
饼图展示当前事件下的高赞评论。
饼图展示当前事件下的高回复评论。
设置爬虫爬取事件间隔。
设置文章排名、文章热度排名、事件高赞与高回复评论排名。
在事件负面评论占比输入框内输入事件负面评论占比阈值,点击设置事件负面评论占比预警阈值。
按时间线显示系统操作的记录。
系统的人机交互符合人的认知心理学基本原理,并且需要降低系统工作人员的学习成本,必要的话还要提供系统使用的帮助文档。
系统基于大数据生态组件构建,鉴于大数据组件的横向扩展能力,系统的可扩展性有一定保证。系统代码的开发需要满足代码开发规范,需要做好充分的注释、注意代码的可复用性、注意功能模块之间解耦能力,使得系统能够以较低成本进行二次开发、进行功能扩展、进行系统维护。
网页需要支持可视化图表在主流浏览器的正常加载显示,以及在浏览器窗口大小变化时它们也能够适应窗口大小正常加载显示。
在网络正常的情况下用户点击网页后页面的跳转时间<=3s;若页面的数据量较大而导致的页面加载时间长的话,页面必须提供网页加载提示。
在系统发生故障后,需要保证系统可以在较短时间内重建其性能水平并恢复直接受影响数据的能力,并且使系统故障率保持在一定的水平下。
系统需要保证数据的安全,防止数据的泄漏等。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/193664.html原文链接:https://javaforall.cn