专栏首页数据派THU干货 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

干货 | 三年拿到斯坦福CS博士的创业者李纪为:AI如何赋能金融

人工智能和金融,法律、医学等传统领域密切联系,金融科技正以前所未有的速度改变大众认知,这不仅驱动了传统金融业转型升级,也催生了诸多新金融业态。本次清华大数据“技术·前沿”系列讲座,我们荣幸地邀请到了香侬科技CEO李纪为博士,他从金融数据的获取、金融数据非结构到结构化、金融实体的用户画像等方面为大家分享了AI如何赋能金融。

香侬科技创始人李纪为

李纪为:

今天非常有幸能跟各位探讨如何把人工智能的方法和知识,如语音、图像和自然语言处理等技术应用在金融领域。

在信息爆炸的时代,金融从业者的数目和其工作负荷量均逐年上升。从业人员如何在众多渠道中准确、快捷地获取需要的信息,并做出相应决策,显得尤为重要。其中找信息和根据信息做出交易决策分别对应AI里的不同应用。

金融应用的直接的体现为股票、国债、贷款、固定收益、股权投资、主权基金,大宗商品、金融衍生品等,这些是金融实体的载体,比如说股票,它背后对应的是上市公司。如果要预估一个股票的涨跌,最重要的是了解它背后的金融实体发生了什么事,涉及到公司的收入、历史、运营情况,以及在整个大环境下,国家的金融趋势。其实就是涉及到对于不同金融实体的用户画像,即它们发生了什么,从何处获取这些信息。

交易类型连接的是金融实体和客户。从金融角度,我们需要从广泛的数据源里提取需要的信息,使整个过程变得有序、方便、及时和准确。从技术角度,应用人工智能技术,涉及到图像、自然语言处理等。从服务角度,提供什么样的服务取决于用户需求。

接下来我们探讨技术和落地场景的结合。我们并不缺少金融信息,却很难获得想要的数据,它们隐含在网上,可用性比较复杂,需要从非结构化变成结构化,如用算法把PDF、照片、表格等还原成文本数据,目前主流的解决办法是先把PDF变成图像,然后对该图像做解析,在图像里面获得所需要的文字或表格。

其中涉及大量的图表和文字的识别。举一个例子,将PDF中的表格转化为Excel形式。从图像处理的角度,第一步,把PDF转成图像,先把像表格的地方抽取出来。第二步,获取到该区域之后,把图像裁出来,再用图像处理。要把表格的位置从PDF里面裁出来,还是一个比较复杂的过程,需要标注很多的数据,比如这个表格的上下文。

当把该表格区域提出来时,还要识别里面的单元格以及单元格的文字,除此之外,单元格还可能涉及到大量的合并情况,需要运用比较复杂的算法。为了避免乱码,主流的解决办法是直接把它转成图像。

利用信息抽取的办法,我们可以把不可用的信息变得可用。用一个简单直观的算法直接把文本信息变成结构化的数据,比如,通过模型或算法就能自动地反馈出来想要的某些金融的数据指标。

其中涉及到自然语言处理的算法,其中一个模式是序列标注,可以用一项基于CRF的模型。CRF给出一个字符串,可以挑里面字符串的子串是否对应某一个或者几个不同指标。序列标注和问答在算法层面上处理的方式有所不同,如果两个模型得出一致的结果,我们就认为找到了对应答案。

从算法的层面,我们要抽取谁在哪里做了什么。背后的算法相对复杂,原因就在于“做了什么”,人们可以做的事情非常多,难以在基于学习或者监督学习的体系框架内把这些不同类别的事件聚类。

除此之外,即便事情属于同一类,也有好坏之分。我们难以拿到大量的标志数据,既没法对这些事件进行全面定义又没法提出非常明确的标注细则。一旦没有标注,我们就没有训练数据,没有训练数据,就很难去训练基于监督类型的模型。

其背后涉及的算法叫做“human-in-the-loop”,如果把整个算法变成一个圈,人就在里面不停地干预。

第一步,可以对整个的文章以及里面的词、句和句法结构做无监督的聚类,比如LDA、PLSA或者是基于词向量的LDA等。而无监督的聚类算法有时不靠谱,需要通过人为标注了解类别是否有意义。

第二步,基于之前的标注,把标注的结果跟模型融合一起,可以再运行一个无监督的聚类。不断重复这个路径,模型迭代的结果会越来越好,人为标注的曲线和模型运行出的曲线开始逐渐趋近,得出不同的算法背的真正类别。从算法的角度讲,这个办法避免了大规模的人为标注的成本。

除此之外,实现方法还涉及语音相似度的分析、目标的检测、为用户提供的服务方式等。

应用场景有很多。第一个例子,我们假设在非洲国家买国债。非洲国家的宏观经济数据或不披露,或存在报假情况,很难找到明确的指标,我们可以应用人工智能,比如大量的卫星云图的图像,2016年《Nature》里的相关文章指出这个国家的GDP、国情、人民生活水平甚至和晚上这个国家灯火的亮度有一定关系,我们可以把类似的情况落地,对它的GDP、CPI做宏观分析。

第二个例子,企业的风险画像。针对中小企业提供贷款担保和偷税问题,我们有两个维度可以衡量,一个是中小企业贷款时候声称的收入,另一个是可以找到企业所交的税,通过企业交的税反推出它今年大概的收入。从网上去找到大量的不同维度的数据,如公司法务、人员、行业的用户画像等就能够描述出来。

把技术手段和应用场景结合起来,从大量的数据源中提取有意义的信息,我们就可以提供大量的知识体系和信息为金融赋能。

本文分享自微信公众号 - 数据派THU(DatapiTHU)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 约翰霍普金斯大学刘晨曦:渐进式神经网络结构搜索

    近年来,神经网络已经成为了计算机视觉中主要的机器学习解决方案。然而神经网络结构的设计仍然需要极强的专业知识,在一定程度上妨碍了神经网络的普及。

    AI科技评论
  • 清华大学岂凡超:义原的介绍和义原的自动推荐 | AI研习社76期大讲堂总结

    义原(Sememe)在语言学中是指最小的不可再分的语义单位,而知网(HowNet)则是最著名的义原知识库。近些年来,包括知网在内的语言知识库在深度学习模型中的重...

    AI科技评论
  • NLP问题之word2vec

    其用于有如下的 从「中文分词」、「词云画像」、「词性分析」到「自动摘要」、「关系挖掘」、「情感分析」、「知识图谱」等

    东风冷雪
  • 央视点名曝光科大讯飞,以“AI”之名套利盖别墅,AI第一股终成笑谈

    10月13日,央视点名曝光科大讯飞非法侵占安徽扬子鳄国家级自然保护区,以建设培训基地为名开发房地产。

    钱塘数据
  • 基于tensorflow+CNN的报警信息短文本分类

    tensorflow是谷歌google的深度学习框架,tensor中文叫做张量,flow叫做流。 CNN是convolutional neural netwo...

    潇洒坤
  • 谷歌推出开源的ActiveQA,一个学习如何问好问题的AI

    AI系统自然不善于提问,人们必须教导它们。这是Google关注的核心领域,它利用自然语言处理和其他会话AI技术,使与Google智能助理的互动尽可能自然。

    AiTechYun
  • 总结 | 邹炎炎:语义分析介绍及跨语言信息在语义分析中的应用

    AI 科技评论按:语义分析(semantic parsing)是人工智能的一个分支,是自然语言处理技术的几个核心任务,涉及语言学、计算语言学、机器学习,以及认知...

    AI科技评论
  • 计算机视觉:进最快的赛道,挣最多的钱

    指纹解锁、刷脸识别、语音转换文字、机器人看病、Alphago······我们已经深刻的感受到,人工智能在改变我们的工作方式和认知。

    量化投资与机器学习微信公众号
  • 总结 | 清华大学韩旭:神经关系抽取模型

    AI 科技评论按:关系抽取是自然语言处理中的重要任务,也是从文本中挖掘知识的基本途径之一。深度学习在关系抽取中的研究在近几年取得了广泛关注,其中基于远距离监督、...

    AI科技评论
  • 自然语言处理中的分词问题总结

    众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,...

    IT小白龙

扫码关注云+社区

领取腾讯云代金券