学术大讲堂
大家好,我们来共同分享创新智能应用研究中心的人工智能技术在公安大数据方面的应用探索。作为集团公司的研发引擎,我们的技术研发需要面向市场需求,面向实际业务场景。新兴ICT行业是集团DICT领域的重要收入来源,公安行业具有典型的大数据应用场景,我们的人工智能技术也在其中找到了施展空间核心技术也带来了差异化竞争优势。我们从技术维度出发,介绍一些公安应用中的技术实践。
1NLP(自然语言处理):语义分析、信息抽取…
我们先来参考一下一段网络上关于NLP的定义:“ NLP 作为一种人工智能方法,能够处理机器和人类自然语言之间的交互,即 NLP 帮助计算机机器以各种形式使用自然人类语言进行交流,包括进行分析、理解、改变或生成自然语言”。
从我的认知角度,我觉得NLP是“晓人道,格物以致知”。
自然语言处理,首先我们从数据说起,下面是一张我们的数据价值链:
下面我们来介绍几个典型的NLP应用场景。
警情数据是典型的短文本数据,涵盖多项警情要素,基于警情数据的应用场景如下:
1.警情数据之犯罪预测
应用XGBoost算法,基于自激励点过程模型,获取未来一段时间内各类警情发生概率,提前防控布局,合理安排警力资源。
2. 警情数据之警情分类
为了实现警情的有效分类,我们基于TF-IDF的支持向量机SVM的分类模型,基于关键词相似度的梯度提升决策树GBDT分类模型进行最优化处理。警方关注的各类黑恶势力,按照重点领域、重点行业定义各类涉黑涉恶警情分类。大大提高了警情分析效率,为扫黑除恶线索挖掘提供了重要技术手段。
3. 警情数据之复杂地址分析
对于公安而言,警情数据中的地址信息十分重要,而地址信息的不规范和非标准地址的转化一直都是困扰。我们基于近1亿的地址数据,应用双向LSTM神经网络算法,构建分词模型,实现了复杂地址的精确划分。通过关键地址确认、补全、分级、缩写匹配、错写标识、复杂场景识别等算法,辅助实现警情的精准定位、突发预警的点面关联、地址串并有效对应。
笔录数据是一类非常典型的长本文数据,业务场景中对于语义分析的诉求非常强烈,我们基于笔录数据的实体识别综合准确率能够达到95.83%,应用到了LSTM 长短期记忆网络、CRF条件随机场算法、word2vec词向量模型、数据增强方法、正则表达式等技术,实现了诸多的应用实践。
1、 笔录数据之全息档案
从笔录中提取关键要素,我们开发了三大功能:实体识别、档案聚合、人物关系图谱,实现对笔录文本数据的充分利用。
2、 笔录数据之法制规范化
粘贴痕迹发现: 在笔录制作过程中,会出现多份笔录进行复制粘贴的现象,利用已建立的笔录文本数据库,快速进行新录入笔录文本比对,给出重复比率反馈结果;
要素缺失检测: 根据完整笔录范例对新录入笔录进行询问要素检测,比如时间、地点、人物、事情、起因、结果等要素不全,内容不完整,发现缺失即时提醒办案人员补充;
实时提醒推送: 利用数据库已有信息,对新录入笔录进行实时比对,提醒人口、位置等关键信息,并进行消息即时推送,辅助精准工作。
除了公安应用,利用NLP,我们也做了一些其它应用尝试,如知识图谱辅助司法应用。基于大量的法院判决书,利用爬虫能力进行快速信息获取,利用NLP能力完成信息抽取及关联,利用深度搜索完成快速高效检索。重点解决司法领域存在的检索水平低、信息关联差、信息获取难等问题。
2图计算:多维数据融合、GCN…
图计算是一个很大的技术领域,我们工作中用到的图数据库只是其中的一个部分。图计算适用于数据以图的形式进行呈现,当数据量较大、数据维度较多、强调数据之间的关联时,图计算可以发挥作用,它表达出了节点和边之间的关联关系,如我们的社交关联关系,就是一种典型的比较适合通过图计算进行数据处理的场景。
多维数据融合
通过串联起不同类型的数据,形成“地毯”效应,链接不同类型的数据源,通过融合,实现“1+1>2”的价值增益。
1、 多维数据融合之串并案分析
案件、笔录、警情等数据隐藏大量线索和细节,通过智能串并,可以找到案件之间的潜在关联,优化警力分配效率。系统根据案件提取出的因素,结合权重进行串并,从而发现不同案件之间的关联以及关联度。
2、 多维数据融合之人物关系模型
人物关系模型,利用Pagerank算法,以人为核心让AI算法向情报专家持续进化,掌控关键节点,弹性融合海量多源数据,在复杂局面中实时定位重要情报线索,辅助公安业务单元进行精准打击。
3、 多维数据融合之嫌疑人异动检测
嫌疑人群异动检测模型,基于多维数据构建嫌疑指数,实现情报防范知行合一,动态监控实时分析防范嫌疑人社交网络中异常行为。
4、 多维数据融合之断点追踪模型
断点追踪模型,提取号码行为特征及社交关系特征,判断新旧号码相似度,辅助警方判断换号/换设备情况,对号码进行断点续联不间断追踪监控。
5、 多维数据融合之时空关系模型
时空关系模型,基于图计算算法构建设备轨迹相似度,利用“相似相近,相远相斥”原理判断设备间相关程度,依据相关轨迹情况实现目标轨迹追踪。
6、 基于运营商数据资源特征——运营商特色算法
结合运营商数据资源特征及公安客户需求场景,推出针对群体及个体安全态势感知的常驻地识别、轨迹识别、通联关系分析等数据模型。
以城市人群趋势洞察为主题,形成:
个体安全态势感知:数据关联,专案侦破,情报搜集;
群体安全态势感知:宏观分析,日常监测,主动发现。
图卷积神经网络
图卷积神经网络(GCN),研究对象是图数据,一种可以融合多元、异构特征的数据类型;研究模型是卷积神经网络,一种在节点分类任务上效果远优于其他的方法。如果说卷积神经网络(CNN)更加适合处理规则空间结构的话,那么图卷积神经网络更加适合处理不规则的空间结构,它拥有如下特征:
我们对基于图卷积神经网络的嫌疑指数模型,进行了数据验证测试,以涉毒人员为例,原始数据情况如下:
计算结果情况如下:
总结一下,今天我们分享了团队利用人工智能技术在公安大数据中的应用探索,主要从自然语言处理和图计算两个技术领域进行了说明,应该说我们的尝试还非常浅显,对于技术的掌握和应用还有很大的提升空间,说的不准确、不对的地方希望能够与大家共同交流探讨,谢谢!
— 完 —