达观数据自然语言处理技术,提升科技企业文档管理效率

在这个人工智能备受推崇的时代,即便如华为这样的大型科技企业也无法忽视人工智能的正向作用,因为时代在召唤,科技的助推只会帮助企业更好地释放价值。

企业堆积海量信息,合理利用才是解决之道

科技企业充斥着大量有复用价值的数据、资料和内容性信息,以各种电子文档的形式散落于计算机各个硬盘,并且信息不断堆叠累积。比如企业中一个项目的开展,必然会附带产生一系列文档信息,或是技术性质,或是产品说明;企业客户的产品问题咨询和企业的疑问解答,都是企业的积累起来的信息和知识。

束之高阁的文档资料和信息是毫无意义的,企业如何将有价值的文档资料进行结构化处理加以利用才是其意义所在,否则既耗费企业的资源海量,文档信息又无所适从。例如大型科技企业必定会出现很多相同类型或同种性质的项目,高效利用前期项目中的有用信息或许可以大幅提高企业的工作效率此外企业通过对所积累的客户问题和回答进行归档整理,以便遇到同类问题可以从知识库中快速提取,免去高成本人工回复。

但是,企业面临的不只是提取重要信息进行复用或使用,更重要的是提取出来的信息所带来的效益是否远远高于提取信息所付出的成本和代价。如果企业耗费较大人力或时间去“翻看”之前的项目资料,机会成本过高,甚至得不偿失。

面对海量信息,企业处理步履维艰

目前很多大型科技企业的电子文档资料仍然主要依靠人工手段进行核心内容的阅读和提取,进而焕发文档内在可用信息的“第二春”。但人力的工作时段有限,不具备实时性,更不具备连续工作性,且工作效率呈边际递减状态,而人力成本却不低。

另外面对企业每天产生的信息数据,实现高效分类也能提高企业工作效率的一大利器。而多数企业除却人工分类就是基于简单文本特征的建模进行文本分类,人工分类效率低,而简单建模分类不仅成本高,还面临着因为已有类别的扩充或变化需要大量投入进行调整的问题。有的企业借助普通第三方服务,比起人工和简单的二次开发分类效果自然好很多,但多数第三方服务无法给予定制化开发,且不能自动升级。

因此,企业力求文档高效分类,只依靠人工和普通的技术难以实现高度准确的分类效果。

达观智能文本语义理解,快速分析海量文档

达观文本语义理解技术,恰如其分地解决企业在处理海量文档资料中的需求和问题实现文档资料结构化。具体可以实现的功能囊括了文本分类、实体识别、摘要提取、情感分析等。下图是对一句话进行分析的简化处理过程说明。

针对科技企业的海量文档内容,达观机器学习技术自动从每篇文档中提取摘要,从而反映文档的中心内容,类似于中学里语文考试从一篇文章中概括出主体思想和中心大意。与此同时,达观利用企业提供的样本数据,通过机器学习结合NLP技术构建企业独有的分类模型。

针对上述企业出现的信息分类效率低下和准确率不高的困境,达观采用多层分类器解决方案,通俗地说就是融合之道,利用不同分类器的优势,取长补短,最后综合多个分类器的结果。千万不要以为分类器组合就是简单累加即可使用,而是通过机器来训练组合参数,实现最优组合

如果面对长篇累牍的科技企业文档资料,晦涩枯燥,实行人工分类,抛开对人身体的折磨,心灵会不会有创伤都未可知,达观人工智能技术虽是不断拟人化,却不会似人般有累感。可稳定连续工作,没有长期工资的负担,高效实时,更重要的是它也在持续学习,不断提高分类准确率

科技企业与自然语言处理技术的双赢

企业与员工可能在某种程度上存在一种微妙的零和博弈,员工的付出与企业的“攫取”,至少利用身体的机能损耗为公司带来些许价值,用“此消彼长”来说也不为过。但企业与自然语言处理技术之间存在的只会是非零和博弈,且是正和博弈,大型科技企业的这种现象更为明显。

达观自然语言处理技术助力企业提高文档信息的核心内容提取效率,减少人工成本,而技术则能从这些庞大的企业里获取海量的数据进行机器学习,通过不断自学提高技术实力。于企业和自然语言处理技术而言,这是一个双赢的局面。

原文发布于微信公众号 - 达观数据(Datagrand_)

原文发表时间:2017-04-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

机器人也会造假、有偏见?原因在这

1252
来自专栏数值分析与有限元编程

“The Scientific Paper Is Obsolete”

这是《大西洋月刊》的一篇文章的标题,因此加了引号。意思是科研论文已经过时了。作者的观点是:

1072
来自专栏互联网杂技

哎哟,这里发现一个比头脑风暴还靠谱的创意产生方法!

究表明头脑风暴生成的好创意比人们自己独立思考还要少。 不过好消息是,有更有效的团队工作方式存在。 如果你是个上班族,恐怕十之八九都曾被上司或同事们拉进头脑风暴会...

3438
来自专栏AI科技大本营的专栏

开工了!三位大咖给你指路:未来 3~5 年内,哪个方向的机器学习人才最紧缺?

十一长假结束,收心归来,重新投入工作。如何能克服假期综合症呢?如何快速收心?今天营长就携三位大咖来为你打打鸡血,指引指引未来的路。他们将从自身的工作经历和学习经...

42312
来自专栏机器之心

业界 | DeepMind首次披露旗下AI专利申请情况,引发热议

DeepMind 是一家总部位于伦敦的顶尖人工智能研究公司,成立于 2010 年并于 2014 年被 Google 以 4 亿英镑收购。2017 年,DeepM...

950
来自专栏AI2ML人工智能to机器学习

我也看看《为未来人工智能做好准备》

美国政府刚出台完《国家人工智能研究与发展规划》, 做完现阶段规划, 又开始着眼未来, 出台了《为未来人工智能做好准备》的展望。

581
来自专栏机器之心

学界 | 谷歌联手OpenAI等发布可视化机器学习平台Distill,创始人详述创立背景

机器之心报道 参与:微胖、蒋思源 传统学术发表形式是 PDF 文件。但是,这种文件形式阻碍社区以一种新的互动创造性的方式共享科研成果。Distill 是一个现代...

3589
来自专栏CSDN技术头条

概念,算法,应用全部有,迄今为止对大数据研究最透彻的文章……

一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算...

2316
来自专栏人工智能头条

深度学习:生成艺术的新范式与版权的烦恼

1081
来自专栏深度学习

AI 领域最最稀缺的人才——人工智能架构师

这里,就不卖关子了。AI领域最最最最最稀缺的人才应该为人工智能架构师。有过4次技术创业经历,如今做AI投资的星瀚资本创始合伙人杨歌如是说。 在杨歌的身上,传奇的...

7127

扫码关注云+社区

领取腾讯云代金券