大咖 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

大数据文摘授权转载自数据派THU

人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。

本次清华大数据“技术·前沿”系列讲座,我们荣幸地邀请到了香侬科技CEO李纪为博士,他从金融数据的获取、金融数据非结构到结构化、金融实体的用户画像等方面为大家分享了AI如何赋能金融。

公众号后台回复“赋能金融”下载PPT全文

李纪为:

今天非常有幸能跟各位探讨如何把人工智能的方法和知识,如语音、图像和自然语言处理等技术应用在金融领域。

在信息爆炸的时代,金融从业者的数目和其工作负荷量均逐年上升。从业人员如何在众多渠道中准确、快捷地获取需要的信息,并做出相应决策,显得尤为重要。其中找信息和根据信息做出交易决策分别对应AI里的不同应用。

金融应用的直接的体现为股票、国债、贷款、固定收益、股权投资、主权基金,大宗商品、金融衍生品等,这些是金融实体的载体,比如说股票,它背后对应的是上市公司。如果要预估一个股票的涨跌,最重要的是了解它背后的金融实体发生了什么事,涉及到公司的收入、历史、运营情况,以及在整个大环境下,国家的金融趋势。其实就是涉及到对于不同金融实体的用户画像,即它们发生了什么,从何处获取这些信息。

交易类型连接的是金融实体和客户。从金融角度,我们需要从广泛的数据源里提取需要的信息,使整个过程变得有序、方便、及时和准确。从技术角度,应用人工智能技术,涉及到图像、自然语言处理等。从服务角度,提供什么样的服务取决于用户需求。

接下来我们探讨技术和落地场景的结合。我们并不缺少金融信息,却很难获得想要的数据,它们隐含在网上,可用性比较复杂,需要从非结构化变成结构化,如用算法把PDF、照片、表格等还原成文本数据,目前主流的解决办法是先把PDF变成图像,然后对该图像做解析,在图像里面获得所需要的文字或表格。

其中涉及大量的图表和文字的识别。举一个例子,将PDF中的表格转化为Excel形式。从图像处理的角度,第一步,把PDF转成图像,先把像表格的地方抽取出来。第二步,获取到该区域之后,把图像裁出来,再用图像处理。要把表格的位置从PDF里面裁出来,还是一个比较复杂的过程,需要标注很多的数据,比如这个表格的上下文。

当把该表格区域提出来时,还要识别里面的单元格以及单元格的文字,除此之外,单元格还可能涉及到大量的合并情况,需要运用比较复杂的算法。为了避免乱码,主流的解决办法是直接把它转成图像。

利用信息抽取的办法,我们可以把不可用的信息变得可用。用一个简单直观的算法直接把文本信息变成结构化的数据,比如,通过模型或算法就能自动地反馈出来想要的某些金融的数据指标。

其中涉及到自然语言处理的算法,其中一个模式是序列标注,可以用一项基于CRF的模型。CRF给出一个字符串,可以挑里面字符串的子串是否对应某一个或者几个不同指标。序列标注和问答在算法层面上处理的方式有所不同,如果两个模型得出一致的结果,我们就认为找到了对应答案。

从算法的层面,我们要抽取谁在哪里、做了什么。背后的算法相对复杂,原因就在于“做了什么”,人们可以做的事情非常多,难以在基于学习或者监督学习的体系框架内把这些不同类别的事件聚类。

除此之外,即便事情属于同一类,也有好坏之分。我们难以拿到大量的标志数据,既没法对这些事件进行全面定义又没法提出非常明确的标注细则。一旦没有标注,我们就没有训练数据,没有训练数据,就很难去训练基于监督类型的模型。

其背后涉及的算法叫做“human-in-the-loop”,如果把整个算法变成一个圈,人就在里面不停地干预。

第一步,可以对整个的文章以及里面的词、句和句法结构做无监督的聚类,比如LDA、PLSA或者是基于词向量的LDA等。而无监督的聚类算法有时不靠谱,需要通过人为标注了解类别是否有意义。

第二步,基于之前的标注,把标注的结果跟模型融合一起,可以再运行一个无监督的聚类。不断重复这个路径,模型迭代的结果会越来越好,人为标注的曲线和模型运行出的曲线开始逐渐趋近,得出不同的算法背的真正类别。从算法的角度讲,这个办法避免了大规模的人为标注的成本。

除此之外,实现方法还涉及语音相似度的分析、目标的检测、为用户提供的服务方式等。

应用场景有很多。第一个例子,我们假设在非洲国家买国债。非洲国家的宏观经济数据或不披露,或存在报假情况,很难找到明确的指标,我们可以应用人工智能,比如大量的卫星云图的图像,2016年《Nature》里的相关文章指出这个国家的GDP、国情、人民生活水平甚至和晚上这个国家灯火的亮度有一定关系,我们可以把类似的情况落地,对它的GDP、CPI做宏观分析。

第二个例子,企业的风险画像。针对中小企业提供贷款担保和偷税问题,我们有两个维度可以衡量,一个是中小企业贷款时候声称的收入,另一个是可以找到企业所交的税,通过企业交的税反推出它今年大概的收入。从网上去找到大量的不同维度的数据,如公司法务、人员、行业的用户画像等就能够描述出来。

把技术手段和应用场景结合起来,从大量的数据源中提取有意义的信息,我们就可以提供大量的知识体系和信息为金融赋能。

【今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

【机器学习*时尚】让计算机成为你的私人设计师

16350
来自专栏AI科技评论

业界 | 首战告捷!网易有道斩获首届NLPCC中文语法错误修正比赛冠军

AI科技评论按:CCF 自然语言处理与中文计算国际会议 (NLPCC) 是由中国计算机学会主办的中文信息技术专业委员会年度学术会议,是专注于自然语言处理及中文计...

8310
来自专栏用户2442861的专栏

如何学会傅里叶变换?

作者:张苏 链接:https://www.zhihu.com/question/22202980/answer/20973635 来源:知乎 著作权归作者...

48910
来自专栏机器人网

中科院发布寒武纪深度神经网络处理器是什么?

第三届世界互联网大会于2016年11月16日在浙江乌镇召开,并举办了领先科技成果发布会。其中中国最引人注目的就是中国科学院计算技术研究所发布了寒武纪深度神经网络...

323100
来自专栏UAI人工智能

强化学习Reinforcement Learning被MIT Technology Review列入 2017 年十大技术

17330
来自专栏AI科技评论

中科院百人计划专家深度解析:银行业务光凭“刷脸”真的靠谱吗?

雷锋网按:本文内容来自云从科技创始人、中国科学院百人计划周曦博士在硬创公开课的分享。在未改变原意的基础上进行了编辑整理。 明明可以靠脸吃饭”这句话不再只是一个网...

39960
来自专栏华章科技

资源 | 自学数据科学&机器学习?19个数学和统计学公开课推荐

数学和统计学是数据科学和机器学习的基础。就我所知,大多数成功的数据科学家都来自这些领域——计算机科学、应用数学和统计学、经济学。如果你想掌握数据科学,你就必须要...

26620
来自专栏PPV课数据科学社区

技术前沿 : 大数据下的用户与价值分析。

大数据下,用户分析的核心是什么? ——解决实际问题   确定用户分析目的,具体是为了降低成本?增加收入?优化用户体验?提升营销效果?用户针对性管理? 确定目的...

34330
来自专栏新智元

【Goldberg回应LeCun】DL社群缺乏学习,夸大研究成果

【新智元导读】Yann LeCun 对于 Yoav Goldberg 的驳斥得到了 Goldberg 第一时间的回应。他表示自己并不反对在语言任务上使用深度学习...

369120
来自专栏ATYUN订阅号

AI通过分析建筑规划来解释一个地区的肥胖水平

在21世纪,肥胖率空前增长,对健康和医疗体系的毁灭性影响已经得到了很好的证明。尽管有数十项研究着眼于一些有助于体重增加的健康措施,但这种流行病仍在继续。

10430

扫码关注云+社区

领取腾讯云代金券