专栏首页数据猿达观数据创始人陈运文:算法技术剖析海量数据,数据价值驱动企业收益

达观数据创始人陈运文:算法技术剖析海量数据,数据价值驱动企业收益

在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗

作者 | 陈运文

官网 | www.datayuan.cn

微信公众号ID | datayuancn

本文为数据猿推出的“金融科技价值—数据驱动金融商业裂变”大型主题策划活动第一部分的文章/案例/产品征集部分;感谢 达观数据创始人陈运文 先生的投稿

大数据正在融入我们的工作和生活中,数据挖掘和深度学习正改变我们对世界的认知,今后我们所看到、所听到的都是数据优化过的结果。这就是数据的价值和能量。

我们每天使用的各种APP,从基本的吃穿住行类到精神层面的学习升华类,无一不是数据的力量在支撑其运作。

比如你在亚马逊购买一件衬衫,亚马逊搜索系统会根据你的年龄、对品牌喜好等维度推荐结果,而不是正常搜索结果排列。亚马逊超过30%的购买收入由个性化推荐系统所贡献,背后大数据功不可没。目前,大数据不但在购物方面功不可没,也在文字喜好、视频推荐等方面的影响越来越大。

回首创业前期的职场经历,无论是百度的技术研发还是盛大文学的数据负责人,都是在与数据打交道,彼时利用技术挖掘数据提高自己企业的效率和收入,而此时则是擅用技术的力量剖析用户的海量数据,为更多企业提升收益。

从职场技术负责人到技术服务企业创始人,转换的不止是身份和视角,更是如何最大化帮助更多企业挖掘数据价值的“野心”。期间,见证了大数据技术的不断成长,也目睹了越来越多的企业对数据的重视和寄希望于数据来更懂每个用户的过程。企业想要分析挖掘的数据形式多有不同,可能是常态化的文档信息,也可能是动态化的用户信息,亦或是数据库中的日志信息。借此机会来分享科技和金融两个不同行业通过技术辅助数据,数据衍生价值的典型场景。

文本挖掘助力大型科技企业高效分析海量文档

大型科技企业充斥着大量有复用价值的文档、资料和内容性信息,比如中兴、华为,或是以邮件形式沉浮于邮箱之中,或是以各种电子文档的形式散落于计算机各个硬盘。

企业需要针对这些有可用价值的文字内容进行重要信息提取,比如抽取出文档中的专有名词,通过这些专有名词构造知识图谱,如若人工处理这些文档来进行逻辑构建和知识图谱生成,所耗人力和时间成本可想而知。

目前多数科技企业甚至是大型企业的电子文档资料仍然依靠人工手段进行核心内容的阅读和提取,进而焕发文档内在可用信息的“第二春”,但即便亲力亲为,人工过失也是难免。

针对大型科技企业的海量文本,利用机器学习技术自动从原始文献中提取摘要,从而反映文档的中心内容,类似于中学里语文考试从一篇文章中概括出主体思想和中心大意。基于文章内容自动提取摘要,减少文档阅读时间,提高获取效率。

此处不得不提及的一个词语“实体”,就是一篇文档中出现的人名、地名、产品名、机构名称等,实体连起来就是关系网,由此得出实体间的逻辑关系,进而依托全网信息构建知识图谱。

既有实体,不得不提标签,标签就是文档中的核心词语。如果面对长篇累牍的科技企业文档资料,晦涩枯燥,实行人工打标签,效率低且无法持续工作。

高冷的金融行业,逃不开数据驱动的宿命

金融企业拥有海量的用户数据,但受困于数据处理能力的限制,往往只对少数高净值用户提供定制化服务,而绝大部分的用户服务难以实现个性化。随着大数据技术的不断发展,金融企业可以通过拆分用户的长期稳定偏好和短期波动偏好,不断调整兴趣画像模型,构造精准“用户画像”。利用构建好的“用户画像”,分析每位用户潜在的金融服务需求方向,针对性地进行金融产品推广营销。

“用户画像”对于金融企业构建金融资讯生态也大有裨益,通过实时分析用户所偏好的资讯类型,为每位用户推荐最合适的资讯,既保证了用户对于特定资讯信息的实时更新,也增加了资讯的点击率。但在此过程中,资讯推荐的多样性和惊喜度尤为重要,以避免单一类型资讯推荐带来的枯燥感。

用户对于金融产品和金融资讯的获取不单是依靠个性化推荐被动获取,直接搜索相关金融产品和资讯关键词主动获取也是常用之道,因此,高效智能的搜索引擎可以帮助用户精准直达搜索目标,显著提升用户的使用体验。企业可以通过对用户行为深度分析和智能搜索技术,实时识别用户搜索意图,并对用户的搜索词进行搜索提示和搜索词纠错,为用户高效送达目标金融产品和相关金融资讯。

但需注意,金融行业是一个极其注重用户数据隐私的行业,用户数据的流失也意味这用户信任的流失,所以金融企业除却自我技术研发外,在选择利用第三方技术时,如何兼顾数据的可用性和私密性也是重中之重,所以选择技术优良且值得信任第三方这一事项不容忽视。

在数据不断增加和算法技术日益优良的并行时代,借助技术去挖掘数据蕴藏的价值,利用数据蕴藏的价值去驱动企业的运营和发展,这是技术、数据、企业收益三者之间的良性循环,各个行业均如此,金融行业亦不能免俗。

- 作者介绍 -

陈运文,现任达观数据CEO,上海市计算机学会多媒体分会副会长。中国知名大数据技术专家,国际计算机学会(ACM)和国际电子电器工程师学会(IEEE)高级会员,中国计算机学会(CCF)会员,复旦大学计算机博士和杰出毕业生,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师等职务,曾带领团队多次获得ACM竞赛冠亚军。

本文分享自微信公众号 - 数据猿(datayuancn),作者:陈运文

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 包银消费金融总经理助理汤向军:消费金融行业的大数据

    数据猿报道,2017年10月25日,由 数据猿 联合《清华金融评论》共同主办的“2017金融科技价值峰会——数据驱动金融商业裂变”在北京隆重召开。本文为数据猿现...

    数据猿
  • 大数据24小时 | 姨妈界死对头秒变难兄难弟,文艺的蜻蜓fm智商捉急,这一切都从数据造假说起

    WhatsApp事件升级,消费者的口还没堵住,美国政府和欧盟又来凑热闹;美柚大姨吗被曝数据放卫星,蜻蜓fm一年用户缩水8千万;云计算服务商 UCloud 与苹果...

    数据猿
  • 新技术加速隐私暴露,如何应对?(二)

    网络爬虫技术并不是一个新技术,最初是搜索引擎用来抓取散落在因特网上的海量网站,解析后为用户提供搜索服务的一种技术,本质上是模拟浏览器浏览网页的行为,用程序获取网...

    数据猿
  • 盘点 ▏12项要闻回顾2015年全球大数据发展的起起落落

    对于大数据来说,2015 年是动荡的一年:其数据和分析所具有的改变世界的潜力则继续散发耀眼的光芒,鼓舞着我们前行;同时,这一年中也经历了很多发展的低潮,这就像是...

    华章科技
  • 盘点全球2015年大数据发展大事记

    对于大数据来说,2015 年是动荡的一年:其数据和分析所具有的改变世界的潜力则继续散发耀眼的光芒,鼓舞着我们前行;同时,这一年中也经历了很多发展的低潮,这就像是...

    灯塔大数据
  • 都在说“大数据”,那它到底能帮企业什么忙?

    大数据对企业来说有什么用?对于这个连IT界都众说纷纭的事情,要让希望使用大数据产品和服务的企业主们来说,更是一头雾水。其实,从传统企业的运行流程来看,大数据主要...

    小莹莹
  • 包银消费金融总经理助理汤向军:消费金融行业的大数据

    数据猿报道,2017年10月25日,由 数据猿 联合《清华金融评论》共同主办的“2017金融科技价值峰会——数据驱动金融商业裂变”在北京隆重召开。本文为数据猿现...

    数据猿
  • 星图数据发布国内首个“大数据开放平台”

    2015年6月16日,标志性的DaaS(数据即服务)大数据公司“星图数据”宣布上线国内首个大数据开放平台—“蜂巢”。“蜂巢(DataComb)”大数据开放平台...

    腾讯研究院
  • 大数据市场正从基础投入迈向应用

    作为当今企业信息化领域最热门的话题,大数据掀起了新一波IT投资和信息化建设的浪潮。无论是在大数据发源的互联网和电子商务领域,还是在金融、零售、制造、物流等线下...

    腾讯研究院
  • 大数据24小时 | 姨妈界死对头秒变难兄难弟,文艺的蜻蜓fm智商捉急,这一切都从数据造假说起

    WhatsApp事件升级,消费者的口还没堵住,美国政府和欧盟又来凑热闹;美柚大姨吗被曝数据放卫星,蜻蜓fm一年用户缩水8千万;云计算服务商 UCloud 与苹果...

    数据猿

扫码关注云+社区

领取腾讯云代金券