【老炮儿白硕创业了】CCIR阡寻科技聊知识图谱和NLP如何落地金融

【新智元导读】阡寻科技(Chancein)成立一年多,由东吴证券与中国证券市场及自然语言领域泰斗级人物白硕先生所率领的团队共同发起设立。全国信息检索学术会议上,阡寻科技执行董事、总经理熊昊博士在大会做了《Chance in 阡寻-让知识对接价值》的主题演讲,介绍了知识图谱和NLP在金融行业的落地。

2017年7月12日~14日,第二十三届全国信息检索学术会议(简称CCIR2017)在上海市召开。中国中文信息学会主办的每年一次的“全国信息检索学术会议”(CCIR)系列, 已成功举办过9届,是国内信息检索领域最主要的学术活动之一。

会议上,阡寻科技执行董事、总经理熊昊博士做了《Chance in 阡寻-让知识对接价值》的主题演讲。熊昊博士结合技术、产品及应用领域,介绍了通过自然语言处理和知识图谱等人工智能技术,在金融领域的产品以及实现场景的落地情况。

NLP+金融界老炮儿白硕创业了,踩过坑才知道痛点

阡寻科技(Chancein)于2015年12月成立,一家专注于金融科技领域的人工智能公司,由中国证券市场及自然语言领域泰斗级人物白硕先生所率领的团队共同发起设立,公司创始人及高管团队多拥有博士学位。

白硕现任阡寻科技董事长,曾任中科院计算所研究员、博士导师、软件室主任、软件方向首席科学家。2002年任上海证券交易所总工程师。同时白硕是新智元智库专家之一。新智元就创业和金融+AI技术等问题对白硕进行了专访,如下:

新智元:您为什么在这个时期选择创业?

白硕:之所以选择创业是多种因素的交汇的结果,这段时间既是中国创业氛围最好的时期,也是人工智能大有用武之地的黄金时期,更是我个人在技术和业务方面的丰富积累互相交融渗透、产生大量想法的时期。我和阡寻科技的其他创业伙伴们对此一拍即合。

新智元:现在做金融知识图谱的公司越来越多,阡寻的知识图谱及其相关产品有什么优势?

白硕:真理被大家认识到只是时间问题,我们绝不把希望寄托在“众人皆醉我独醒”上,这既不可能也不现实。

我很高兴有越来越多的公司认识到知识图谱对于金融基本面分析的重要作用,这既验证了我们的判断,也从一个侧面肯定了我们的前期努力。

但是认识到应用知识图谱是一个正确的方向是一回事,在一个个领域中耕耘细节,精准把握分析师最核心的静态知识关联和动态事理推理路径是另一回事。

此外还有自然语言处理和知识图谱对接这样一个受到人工智能界普遍关注的技术挑战在里面,无论在领域知识方面、产品方面还是技术方面,都有很多很多的坑,真正踩过了才知道痛点。

新智元:熊昊博士在演讲中举例,通过AI系统通过自动收集橡胶相关新闻,竟然成功预测了橡胶的涨跌,这个例子让人印象深刻。如此智能,是不是说明NLP在金融领域达到了人类水平?从现有数据上看,阡寻预测成功了多少案例,有没有一个成功率的指标?

白硕:重大事件的基本面分析往往都是个案驱动的,其在现实生活中发生概率本就不高,再被系统完整捕捉到,就意味着相应的领域知识及其关联和推理方面准备必须非常充分。

目前供实验研究用的测试集的积累还很不足,在这种情况下谈指标有点奢侈。这里必须有一个大规模资源建设的过程,而资源建设全面铺开需要大量投入,这不是一个初创公司能够马上做起来的。

我们一方面要把公司经营行为、资本运作行为这类领域无关共性事理先做好,另一方面也在有序推进领域相关的资源建设,期货、化工、汽车是我们目前在资源建设上相对聚焦的领域,因此在橡胶事件中,与这几个领域有直接关联的推理链条被完整捕捉下来。随着领域知识图谱的资源建设进一步铺开,阡寻科技的产业链推理功能还会被进一步放大,产生更加靓丽的表现。

以下是熊昊博士的演讲内容。

金融遇上知识图谱和NLP

全球范围内,包括中国BAT等各大互联网公司都在研究自然语言处理、知识图谱和深度学习,行业目前正在争夺落地场景。阡寻让金融遇见知识图谱和NLP技术。

知识图谱作为一种大规模的知识表示形态,其核心是以图的方式存储知识并向用户返回经过加工和推理的知识。

其中行业知识图谱是数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,是把专家经验和实体关系逐步变成可重用、可演化、可验证、可传播的知识模型的方法。

对金融领域,事件的发生是有征兆的,通过对事件进行捕捉形成事理推理型的知识图谱,以描绘事件发生的顺承关系和因果关系。

据熊昊博士介绍,阡寻构建了证券领域的实体知识图谱库和事理知识图谱库。与推理引擎的相结合,形成了一个可解释、可追踪的分析体系,从而对市场上实时发生的各种事件做即时投资分析和风险预警。与此同时,在风险征兆预警方面,不仅能告诉用户危险了,还能阐明什么征兆积累到了什么程度,可能引发什么后果。

基于对金融行业的理解,他们建立了事理知识图谱,其描绘了金融事件发生的顺承关系和因果关系。运用自然语言理解、自然语言生成技术、语义分析技术对金融领域的新闻、研究报告、上市公司的公告进行分析,生成自动文摘和研究报告和机器自动写作。

自然语言处理技术,目前是人工智能进行场景落地时的一大难点重点。在面对不同领域不同场景时,需要大量的领域背景知识以提高语义分析的精准度。自然语言理解,是阡寻多个产品的重要触发源解析的关键。阡寻科技的产业链知识图谱,不仅在沿图谱进行智能推理时起到决定性作用,还能大大提高金融领域自然语言理解的准确度。

大众的情绪对金融市场有影响吗?有,通过对新闻、评论等文本中的主观性信息进行分析,来挖掘其态度和情绪。这就是情感倾向性分析和观点挖掘,也是NLP研发的内容之一。

除了互联网常用的词典,阡寻科技在金融领域长期积累了一批独有的词典,包括金融本体库,程度副词词典,以及情感词典等等。在对互联网文本进行分词、词性标注、命名实体识别、依存句法分析后,定义相应的情感计算规则来量化文本对某实体的情感倾向性。

网上资讯如何转化成“真金白银”

根据熊昊博士介绍,阡寻科技的产品蝴蝶投研,会基于市场和经济知识,沿产业链知识图谱对市场上发生的各类事件进行即时推理分析。蝴蝶投研首先自动采集新闻,通过自然语言理解将事件导入系统,然后结合行业产业链、知识图谱和推理决策系统的推理体系,运用机器语言将其翻译成自然语言,输出结论,自动生成影响、分析报告。

以橡胶期货的关键事件为例。

系统捕捉到四个关键事件,分别为:2016年2月半挂牵引车由负转正、青岛保税区天然橡胶库存下跌、天然橡胶主要产地泰国爆发特大洪水和合成橡胶价格倒挂。首先是从重点网址上捕捉到新闻,然后利用自然语言技术从此类新闻中解读关键属性,将各个关键属性输入系统处理引擎,并得出结论。通过对历史事件的回测来完善、验证系统。

2016年2月,蝴蝶投研系统采集到2016 年1月份半挂牵引车有关销量的新闻。

系统经过深度学习技术和自然语言处理的语义挖掘和分析文字含义相关技术,截取到关键字“2016年1月”“半挂牵引车”“销量”“同比增长”“18.62%”,输出需要推理分析的事件:“2016 年1月份半挂牵引车销量同比增长 18.62%”。

通过调动智能研究调度器的推理决策模型,进行数据分析推理,输出结论:

在1月份销量同比涨幅18.62%之前,半挂牵引车持续一年处于0 或负增长状态,中国的基建,货物的运输特别是大宗商品的运输都离不开重卡,所以重卡销量一直被市场当做是中国经济周期回升的先行指标。该消息的出现意味着中国经济基本面出现止跌回升态势。同时利好重卡上市公司,如A股的中国重汽、福田汽车、港股的为财动力、中国重汽。

2016年7月21日,系统采集到新闻:“中国橡胶信息贸易网发布青岛保税区天然橡胶最新库存量,天然橡胶库存13.07 万吨,环比下降13.89%,同比下降43.39%”。同样,经过系统自然语言处理分析之后得出需要推理分析的事件:“2016年7月中天然橡胶青岛库存跌至13万吨”。

然后得出推理结论:

根据系统数据显示,青岛保税区的橡胶库存约为20万吨左右。一旦跌至15万吨以下,如果下游需求激增,天然橡胶上涨就成大概率事件。

接着,2016年12月,一个重磅消息在市场传开—泰国爆发特大洪水,当地胶农割胶受到严重影响。对于此“2016年12月泰国爆发特大洪水”事件,系统经过分析,得出结论。

在这次特大洪水后,2017年2月,当投资者还在为当前行情到底是回调还是反转时,系统采集到橡胶倒挂的相关新闻。这件事情发生的时候,财经门户网站报道的寥寥无几,但系统的数据异常监控功能第一时间挖掘出来,同时通过对其的自然语言处理,得出需要分析的事件:“合成橡胶价格倒挂超过4000点”。

经过分析推理,输出结论:

四大产品和产学结合

阡寻科技提供四个产品,除了蝴蝶投研,还包括:

  • A股智能研究院——针对个股和行业,生成研究报告和及时报告。
  • A股智能咨询——包括新闻摘要、公告分析等多个维度的A股智能咨询。
  • 证券智能E助手运用知识提取技术、自动写作技术,把繁杂资料整理形成合规报告、上市(挂牌)公司公告等各类型的金融证券报告,减轻证券金融工作人员重复且格式化的工作,提升金融机构的运转效率。

目前阡寻已与东吴证券等多家券商和私募达成战略合作协议,双方将就阡寻技术在网络金融、资产管理、智能投研/顾、投行、风险控制等业务领域进行合作应用与落地工作,借此推动证券行业智能化发展。同时,阡寻科技基于本身技术优势和技术红利,作为技术服务商与传统行业机构进行合作,共同提升传统行业业务场景。

阡寻的发展得到了海内外高校组织的支持,目前已经和中科院计算所、信息工程所、复旦大学计算机学院和香港大学计算机系建立了合作关系,共同建设阡寻的产品体系。

熊昊博士表示,阡寻感恩学术界多年的滋养带来的深厚技术积累,乐于回馈学术界,支持学术发展。阡寻深知技术的进步一日千里,很多源头都在学术界,要持续不断地从学术交流中学习新事物、开拓新思路。阡寻扎根在产业第一线,拥有大量既接地气又具挑战性的应用场景,愿与学术界开展广泛合作。今天的信息检索内涵已经大大扩充,产业界对信息检索学术研究的期望值也大大提升。他们表示衷心希望CCIR始终引领国内信息检索学术研究的前进方向,在国际上产生更大影响。希望国内外信息检索学术界能源源不断地向产业界输送创新技术和创新型人才,与产业界共成长。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

「公开课实录」睿悦信息 Nibiru 贾涛:从 GDC 2016 看 VR 产业新趋势

8010
来自专栏企鹅号快讯

2018的科技、设计趋势预测来了,这 12 大前沿改变和每个人都有关系

本文授权转载自:动点科技 今天我们聊聊近在咫尺的未来——2018科技趋势预测。虽说是科技,但跟设计息息相关。 颠覆性技术已经成为当今基础设施的中坚力量,人们心心...

21450
来自专栏大数据文摘

医疗保健大数据分析需要物联网

356120
来自专栏腾讯数据中心

谈超级数据中心Supernap的生态设计

导语:这是一个数据中心生态城,也是近几年全球最成功的数据中心商业案例之一,值得全球数据中心业界的瞩目和学习。互联网讲生态,数据中心同样需要讲生态,Superna...

39490
来自专栏新智元

【深度】机器的崛起:算法会超出我们的控制吗?

【新智元导读】计算机科学尤其是 AI 的深层次应用已经开始干扰我们的生活,我们必须开始考虑在“机器智能”的应用过程中的两个问题:谁来负责?如何监管?英国政府首席...

35370
来自专栏DT数据侠

交通大数据为啥总是治不了堵?

光有大数据,却没有足够的数据分析能力和人才储备,交通大数据要想真正应用到实处,只能靠“大海捞针”?‍‍‍‍

21100
来自专栏VRPinea

热度远低于VR的AR广告,有机会实现弯道超车吗?

31750
来自专栏钱塘大数据

【周末漫谈】粉红世代—95后大数据报告

近年来,社会上对95 后的影响力越来越重视,对95 后的行为现象研究增多,多以大数据的显示结果分析当代95 后年轻人的性格特征,剖析其内心思想,从而推测未来这群...

43670
来自专栏架构技术

做管理最没用的三件事:讲道理、发脾气和刻意感动

实际上,员工激励的重要性,几乎所有管理者都认识到了。但是,往往劲儿没使对,导致管理者有巨大的无力感,而员工也不领情。

20530
来自专栏PPV课数据科学社区

麦肯锡:决定2025年经济的12大颠覆技术

? 麦肯锡发布了一项报告,里面研究了技术对未来经济影响程度。研究的对象是一些正在取得飞速发展、具有宽泛影响,且对经济影响显著的技术。相反,那些过于遥远的,仅能...

49170

扫码关注云+社区

领取腾讯云代金券