达观数据创始人陈运文:算法技术剖析海量数据,数据价值驱动企业收益

在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗

作者 | 陈运文

官网 | www.datayuan.cn

微信公众号ID | datayuancn

本文为数据猿推出的“金融科技价值—数据驱动金融商业裂变”大型主题策划活动第一部分的文章/案例/产品征集部分;感谢 达观数据创始人陈运文 先生的投稿

大数据正在融入我们的工作和生活中,数据挖掘和深度学习正改变我们对世界的认知,今后我们所看到、所听到的都是数据优化过的结果。这就是数据的价值和能量。

我们每天使用的各种APP,从基本的吃穿住行类到精神层面的学习升华类,无一不是数据的力量在支撑其运作。

比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。目前,大数据不但在购物方面功不可没,也在文字喜好、视频推荐等方面的影响越来越大。

回首创业前期的职场经历,无论是百度的技术研发还是盛大文学的数据负责人,都是在与数据打交道,彼时利用技术挖掘数据提高自己企业的效率和收入,而此时则是擅用技术的力量剖析用户的海量数据,为更多企业提升收益。

从职场技术负责人到技术服务企业创始人,转换的不止是身份和视角,更是如何最大化帮助更多企业挖掘数据价值的“野心”。期间,见证了大数据技术的不断成长,也目睹了越来越多的企业对数据的重视和寄希望于数据来更懂每个用户的过程。企业想要分析挖掘的数据形式多有不同,可能是常态化的文档信息,也可能是动态化的用户信息,亦或是数据库中的日志信息。借此机会来分享科技和金融两个不同行业通过技术辅助数据,数据衍生价值的典型场景。

文本挖掘助力大型科技企业高效分析海量文档

大型科技企业充斥着大量有复用价值的文档、资料和内容性信息,比如中兴、华为,或是以邮件形式沉浮于邮箱之中,或是以各种电子文档的形式散落于计算机各个硬盘。

企业需要针对这些有可用价值的文字内容进行重要信息提取,比如抽取出文档中的专有名词,通过这些专有名词构造知识图谱,如若人工处理这些文档来进行逻辑构建和知识图谱生成,所耗人力和时间成本可想而知。

目前多数科技企业甚至是大型企业的电子文档资料仍然依靠人工手段进行核心内容的阅读和提取,进而焕发文档内在可用信息的“第二春”,但即便亲力亲为,人工过失也是难免。

针对大型科技企业的海量文本,利用机器学习技术自动从原始文献中提取摘要,从而反映文档的中心内容,类似于中学里语文考试从一篇文章中概括出主体思想和中心大意。基于文章内容自动提取摘要,减少文档阅读时间,提高获取效率。

此处不得不提及的一个词语“实体”,就是一篇文档中出现的人名、地名、产品名、机构名称等,实体连起来就是关系网,由此得出实体间的逻辑关系,进而依托全网信息构建知识图谱。

既有实体,不得不提标签,标签就是文档中的核心词语。如果面对长篇累牍的科技企业文档资料,晦涩枯燥,实行人工打标签,效率低且无法持续工作。

高冷的金融行业,逃不开数据驱动的宿命

金融企业拥有海量的用户数据,但受困于数据处理能力的限制,往往只对少数高净值用户提供定制化服务,而绝大部分的用户服务难以实现个性化。随着大数据技术的不断发展,金融企业可以通过拆分用户的长期稳定偏好和短期波动偏好,不断调整兴趣画像模型,构造精准“用户画像”。利用构建好的“用户画像”,分析每位用户潜在的金融服务需求方向,针对性地进行金融产品推广营销。

“用户画像”对于金融企业构建金融资讯生态也大有裨益,通过实时分析用户所偏好的资讯类型,为每位用户推荐最合适的资讯,既保证了用户对于特定资讯信息的实时更新,也增加了资讯的点击率。但在此过程中,资讯推荐的多样性和惊喜度尤为重要,以避免单一类型资讯推荐带来的枯燥感。

用户对于金融产品和金融资讯的获取不单是依靠个性化推荐被动获取,直接搜索相关金融产品和资讯关键词主动获取也是常用之道,因此,高效智能的搜索引擎可以帮助用户精准直达搜索目标,显著提升用户的使用体验。企业可以通过对用户行为深度分析和智能搜索技术,实时识别用户搜索意图,并对用户的搜索词进行搜索提示和搜索词纠错,为用户高效送达目标金融产品和相关金融资讯。

但需注意,金融行业是一个极其注重用户数据隐私的行业,用户数据的流失也意味这用户信任的流失,所以金融企业除却自我技术研发外,在选择利用第三方技术时,如何兼顾数据的可用性和私密性也是重中之重,所以选择技术优良且值得信任第三方这一事项不容忽视。

在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗。

- 作者介绍 -

陈运文,现任达观数据CEO,上海市计算机学会多媒体分会副会长。中国知名大数据技术专家,国际计算机学会(ACM)和国际电子电器工程师学会(IEEE)高级会员,中国计算机学会(CCF)会员,复旦大学计算机博士和杰出毕业生,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师等职务,曾带领团队多次获得ACM竞赛冠亚军。

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2017-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

【独家|重磅】54项大数据关键模型

2747
来自专栏企鹅号快讯

2018程序员必备碎片化学习工具

码个蛋第239次推文 ? 2017马上就要过去了,2018来了。 工作、生活节奏超快的今天,想要不断提升自我,碎片化阅读学习是你最佳的选择,如果你有一颗学习的心...

2489
来自专栏数据猿

数据猿对话 | 族谱科技CEO张力铭:对大数据的看法,很多企业都扭曲了!

数据猿导读 大数据究竟是什么呢?它能做什么?为我们的生活又带来了什么改变?数据猿专门对族谱科技CEO张力铭进行了专访,由他为大家解答这些问题。 ? 来源:数据猿...

2823
来自专栏钱塘大数据

【大咖说】徐宗本院士:大数据与智能制造融合应用

2017中国工业大数据大会·钱塘峰会,由工信部、浙江省人民政府指导,中国工业经济联合会、信通院、互联网协会、浙江省经信委、萧山区人民政府共同主办,杭州市 经信委...

2967
来自专栏人称T客

IBM云战略转移 放弃CIO专注开发者谋翻盘

IBM一直是CIO们在后端数据基础架构的首选。然而,在云计算时代时IBM却落后了,曾经的蓝色巨人面对亚马逊、微软、谷歌等云计算巨头,也会望洋兴叹。 但是IBM并...

2813
来自专栏大数据文摘

2018年AI 8大趋势:人工智能将助力Google、Facebook等大公司稳赢?

1484
来自专栏大数据文摘

浅谈营销中的数据互动

2256
来自专栏机器人网

失业者想找到理想的工作?这三款机器人可以帮你

据外媒报道称,很多创业公司创造出来一些聊天机器人,它们甚至可以帮助我们找到工作。 目前越来越多的创业公司正在开发聊天机器人,它们更多地应用在商业用途,可以帮助用...

2768
来自专栏云计算D1net

云计算解决方案供应商分类大全

尽管以Amazon为代表的互联网公司在云计算市场上屡获大单,但很多企业却出于安全、成本的考虑,依然选择自建私有云。那么,在上百家云计算解决方案供应商面前,企业该...

4256
来自专栏程序员的知识天地

真的要做一辈子的程序员吗?来自10年程序员的心声

经常听一些同学说:不知道下一份工作该去哪类公司做些什么,我的职场人际一团糟老板不重视我,我现在成长的非常慢所以又想跳槽了,我看不到公司的发展前景好迷茫,其实这一...

4552

扫码关注云+社区

领取腾讯云代金券