专栏首页寒树Office与RPA李伟坚(Excel催化剂):接入AI人工智能NLP自然语言处理

李伟坚(Excel催化剂):接入AI人工智能NLP自然语言处理

上回提到现在是概念化时代,马云爸爸们天天演讲各样的概念,IT世界也在讲ABC时代(A-AI人工智能,B-BigData大数据,C-Cloud Computing云计算),在2017年,大把大佬们都大谈特谈人工智能,天猫精灵、小爱同学等智能音箱也走进我们生活了。今天告诉大家一个大好消息,连玩Excel的同学们也可以大谈特谈AI了人工智能,Excel催化剂把整套AI引进来,大家可以在Excel上开心地玩耍起许多过去想都不敢想的事情,对非结构化的数据进行结构化分析。

文章出处说明

原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。

视频演示

https://v.qq.com/x/page/z0624o5lxyr.html

功能介绍

人工智能涉及很大的领域,有语音识别、自然语言处理、视频图像识别等,本次接入的AI人工智能,针对Excel较有使用价值的文本自然语言处理方面,后续有机会再挖掘其他语音、图像是否有在Excel中使用场景再酌情增加。本次更新的功能在于接入了人工智能,真正实现人工智能是BAT们帮我们做好的,我们只是用他们做好的成果,小量使用还在免费的限度内,若要大量使用,需要向BAT们交类似水煤电般的使用费用。本次用到的收费性API有百度翻译API和百度AI自然语言API。因Excel催化剂仅实现了功能部分,后期大家使用时请记得自行申请APPKey来使用,插件自带的APPKey只是测试用途,不能满足大量人员一起使用的。

API调用服务免费范围

百度翻译调用服务免费范围

详细功能之翻译功能

翻译功能使用的API为百度翻译API,月总免费流量为200万字符数,如上图,简单测试一下,流量已经使用了2.5万,使用时记得申请自己的API,不要使用插件自带的开发测试的API。

操作步骤

类似之前介绍的图片插入功能,先选择要翻译的单元格区域,然后点击【接入人工智能】=》【翻译功能】,即弹出相应的设置窗体。

  • 源语言,若提供的原文有两种语言,最好设置一下,若只有一种语言,程序可自行识别
  • 目标语言,必选,根据所需要翻译的语种进行选择,语种十分丰富,点开下拉可查看到。
  • 目标单元格偏移,类似之前插入图片,是根据原文的单元格向左右或上下偏移的位置而设定,如下图是把翻译结果放在B列,原文A列的右边1列。

翻译设置

2 正式大量使用前务必点击AppKey设置,到百度翻译网页上进行注册申请相应的AppKey,填写到相应的位置,如下图所示。

  • 翻译效果

翻译

详细功能之中文分词

中文分词暂未使用百度AI接口来获取,使用本地版的结巴类库实现,使用多少都不产生费用,分词效果还算可以,并配置有自定义词典,方便自行维护特有词语,如我需要对Excel催化剂 这个词做分词,不希望默认的把它分为两个词 Excel和催化剂,这种效果需要在自定义词典中维护。

详细操作步骤

  1. 数据准备,和前几次分享一样,数据区域要符合规范性(无断行断列)。且需新增一列标识数据记录的唯一性,为后期分词后可以溯源是哪条记录的待分词列产生的分词结果,有数据库一对多关系的知识或熟练Vlookup函数的使用就很好理解。(若源数据可能不好找到组合多列的结果为唯一列,如下图的订单编号+商品SKU组成唯一列,可手工对其简单进行序号编号构造唯一列标识)

分词数据源

  1. 选择要分词的数据区域,可点击数据区域任一单元格即可,点击按钮【接入人工智能】=》【中文分词】,即可弹出设置窗体如下所示

中文分词设置

  • 当前数据源信息,可查看选择的数据区域是否和预期一样,同样可实现和上几次类似的,隐藏行的数据将不进行处理。
  • 点击下拉框选取唯一标识列和待中文分词列,让程序知道数据源中哪些列是对应上此两列的。
  • 配置自定义词典 若要增加自定义词,点击此按钮,将打开【自定义词典表.xlsx】文件,在【自定义词典表】工作表中按格式添加即可,词频和词性的定义见批注解释。【结巴词性表】定义了词性是否要过滤,可自行调整或最终在结果表里再手工调整也可。

添加自定义词

添加自定义词-词性定义

  • 点击分词操作即可完成。 数据生成导出到新的智能表还是现有智能表的区别,见上篇购物篮分析文章里所解释的。 结果表中,已经可见有分词列、词性列和词频数三列,是否过滤是根据自定义词典里定义的带过来,有了此结果表数据,再使用Vlookup或Powerpivot数据建模的方式,把源表和结果表进行关联起来,可根据多个维度来做分词的词频分析,如按商品年份或按商品类别来看各自的词频,实现动态交互式的分析报表。

中文分词结果表

  • 有了分词后,再做一个当下时尚的词云效果,词云制作很多在线的网页版工具,下图为https://wordart.com/网站做出的效果,可快速地发现用户的评价中,对质量、面料、穿着舒适度是比较关注的。

词云

详细功能之评论观点提取

虽说词云可以较好地对中文字符串进行较为准确的切割,但中文世界里,一个意思可由许多的词来表达,增加了分析的复杂度,如面料和布料其实是一个意思,单单分词后的效果不能太理想,且分词下来,也没法把握到一个单元的评论中所表达的情感如何,所以用真正的人工智能去识别短句内包含的关键信息和引信息传达的情感极性如何,还是挺有必要的。

详细操作步骤

和以上分词步骤大体一致,先选择数据区域,数据区域先做好唯一列的准备,然后配置过程中也是唯一列和待处理文本列的人工处理映射关系

评论观点提取配置

  • 评论行业类型 需根据待评论处理的来源,选择相应的行业,如餐饮、3C、购物等。
  • AppKey设置 此处的设置和前面提及的翻译功能使用的不一样,整个人工智能功能,需用到两处AppKey,翻译是一处,评论这里是另外一处,请务必在大量使用前进行注册申请。

AI自然语言AppKey设置

  • 点击【观点提取】后即可出下图的结果表效果,理想情况下,一句评论和多个观点时,会出现多条记录,如SO1P1所示,同时提到质量和上身效果两个维度。但同时也存在一些有观点但提取不出来的情况,不能在结果表中显示,这些都是百度云API提供的结果,希望它越来越智能,提取效果越来越好和准确吧。

评论观点提取结果表

详细功能之情感倾向分析

和以上评论观点提取也较为类似,操作步骤几乎相同,此处不再重复罗列 情感倾向分析只对一句话的情感进行量化分析,显示此句话表达的是消极、中性还是积极的情感。有可能一句话既有消极的部分,也有积极的部分,然后最终它会计算出一个极性分类及此极性的判断是可信度(置信度),同时也给出了积极和消极的概率数作参考,详细如下图所示。

情感分析

总结

此次Excel催化剂借助外界人工智能的研究成果,将其接入到Excel中,给Excel赋予更加智能灵活的数据处理能力,即把现实世界中特别是电商时代下产生的大量的非结构化数据,对其进行切割分词、评论关键信息提取标准化,及对评论内容进行量化的情感极性标注等,给Excel后续的数据分析带来了可分析的维度和指标进行统计分析对比,实现分析非结构化数据的最终目标。同时也开阔了大家对Excel的认识,它不仅仅是一款不合时的小型的制表小工具,给予它相应的催化剂,它也同样在新时代绽放出无限精彩!无需借助其他工具实现且实现方法接近智能化,任何Excel普通用户即可轻易驾驭!

系列文章

Excel催化剂安装过程详解及安装失败解决方法 - 简书https://www.jianshu.com/p/4efcee38175a Excel催化剂功能第1波-工作表导航 - 简书 https://www.jianshu.com/p/d9b2ae29cebe Excel催化剂功能第2波-数字格式设置 - 简书 https://www.jianshu.com/p/a758ac3e77e2 Excel催化剂功能第3波-与PowerbiDesktop互通互联 - 简书https://www.jianshu.com/p/e05460ad407d Excel催化剂功能第4波-一大波自定义函数高级应用,重新定义Excel函数的学习和使用方法 - 简书 https://www.jianshu.com/p/534803771c20 Excel催化剂功能第5波-使用DAX查询从PowerbiDeskTop中获取数据源 - 简书https://www.jianshu.com/p/21b2ca8fd2b8 Excel催化剂功能第6波-导出PowerbiDesktop模型数据字典 - 简书https://www.jianshu.com/p/bc26a8dcdfce Excel催化剂功能第7波-智能选区功能 - 简书 https://www.jianshu.com/p/146748e484d5 Excel催化剂功能第8波-快速可视化数据 - 简书 https://www.jianshu.com/p/ce7cca2baf89 Excel催化剂功能第9波-数据透视表自动设置 - 简书https://www.jianshu.com/p/f872ace9aa90 Excel催化剂功能第10波-快速排列工作表图形对象 - 简书https://www.jianshu.com/p/eab71f2969a6 Excel催化剂功能第11波-快速批量插入图片 - 简书https://www.jianshu.com/p/9a3d9aa7ba7e Excel催化剂功能第12波-快速生成、读取、导出条形码二维码 - 简书https://www.jianshu.com/p/76c6856bec12 Excel催化剂功能第13波-一键生成自由报表 - 简书https://www.jianshu.com/p/af0ac9ce1819 Excel催化剂功能第14波-一键生成零售购物篮分析 - 简书https://www.jianshu.com/p/35014c17dff2

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1eT2znYM 因插件使用VSTO开发技术完成,插件的安装需要电脑满足相关的环境配置才能运行,且需可连接外网的方式实现自动更新机制,若下载安装过程中有任何疑问或需要离线版安装等.

Excel催化剂插件交流群群二维码.png

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。 技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。 历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。)

本文分享自微信公众号 - 寒树Office与RPA(OfficeRPA)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [springboot 开发单体web shop] 4. Swagger生成Javadoc

    在日常的工作中,特别是现在前后端分离模式之下,接口的提供造成了我们前后端开发人员的沟通 成本大量提升,因为沟通不到位,不及时而造成的[撕币]事件都成了日常工作...

    Isaac Zhang
  • PHP Opcache工作原理

    在理解 OPCache 功能之前,我们有必要先理解PHP-FPM + Nginx 的工作机制,以及PHP脚本解释执行的机制。

    猿哥
  • Java 动态调试技术原理及实践

    调试是发现和减少计算机程序或电子仪器设备中程序错误的一个过程。最常用的断点调试技术会在断点位置停顿,导致应用停止响应。本文将介绍一种Java动态调试技术,希望能...

    美团技术团队
  • 聊聊rocketmq的sendMsgTimeout

    rocketmq-client-4.5.2-sources.jar!/org/apache/rocketmq/client/producer/DefaultMQ...

    codecraft
  • 5分钟理解SpringBoot响应式的核心-Reactor

    关于 响应式 Reactive,前面的两篇文章谈了不少概念,基本都离不开下面两点:

    Java3y
  • 门面出租-测试工具中的设计模式实例谈之门面模式

    本文将以TestLinkAPI为案例,介绍门面模式(Facader Pattern)以及在TestLinkAPI中利用此模式提供统一对外服务接口,提高用户使用便...

    Criss@陈磊
  • RESTful 架构基础

    译自 | dzone.com/refcardz/rest-foundations-restful

    用户1516716
  • 宋宝华:世上最好的共享内存(Linux共享内存最透彻的一篇)上集

    早期的共享内存,着重于强调把同一片内存,map到多个进程的虚拟地址空间(在相应进程找到一个VMA区域),以便于CPU可以在各个进程访问到这片内存。

    Linux阅码场
  • [springboot 开发单体web shop] 3. 用户注册实现

    作为一个现代化电商平台,什么最重要呢?of course 是用户,广大用户群体是支持我们可持续发展的基石,顾客是上帝, 虽然在当今上帝已经不被重视了,特别是很多...

    Isaac Zhang
  • SpringBoot+Mybatis+ Druid+PageHelper 实现多数据源并分页

    本篇文章主要讲述的是SpringBoot整合Mybatis、Druid和PageHelper 并实现多数据源和分页。其中SpringBoot整合Mybatis这...

    Java团长

扫码关注云+社区

领取腾讯云代金券