00:00
接下来给大家演示一下我们NLP的功能。首先先给大家介绍一个叫open NLP。这个open lp啊,它是阿帕奇基金会下面的一个机器学习工具包,它主要用于处理自然语言文本,它支持大多数常用的自然语言的任务,比如分词、分句,还有词性标注、命名、实体识别和组块分析,还有语法分析等等。那么我们需要从我们的网络当中把它下载下来,那么下载下来的时候我们有一个前提条件什么呢?我们需要跟我们当前的ES软件的版本是一致的。但是很不幸,我们当前的版本是8.1.0,但是我们从网上下载的只能下载到8.1.1.1,那么这个相对来说会有一个版本上的差别,这个其实是用不了的,但是它的核心功能并没有什么太大的变化,所以我们下载之后,你需要把它放到我们的plug ins里面,但是我们要做一个修改,你把这个文件夹打开,打开以后我们里面有一个我们的配置文件,你把配置文件叫plug in script,把它打开,打开以后你要修改一下它里面的一个版本号。
01:08
这个版本号默认是8.1.1,那么我们这里需要改成8.1.0,否则我们这是运行不了的啊,这是做一个小小的改动啊,因为它的版本差别不大,这里我们稍微的说一下。当我们把这个插件放到了我们当前ES的插件当中之后,我们需要重启我们的ES,重启之后,那么这个我们open NLP的功能我们现在就能用了,这个open n lp的工具包啊,它支持检测我们的时间、人物和位置等等,那所以我们就用它来给大家演示一些常见的功能啊,好了,那么我们接下来我们往下来看啊,那首先我们把这个工具包作为插件集成到我们ES当中之后,我们要执行它的指令来下载我们的模型,这个模型的下载时间比较长,我们就不给大家去演示了,我们这个模型我已经事先下好了,到时候提供给你们就可以了。那好,我们接下来我们来看一看我们的模型,如果下载完成以后,它其实是应该在我们的这个位置的,我们的config里面有一个我们的模型,这是我们的下载的三个模型,这个是日期,这个是位置,这个是我们的人物person对吧?那好了,有了模型之后,那么我们需要在我们的配置文件里面把它。
02:21
置上,所以打开,打开以后大家可以看到在我最后的位置把它的模型配好了,那么配置完成以后,接下来我们往下来看,他说了我们需要重新启动ES,这个我已经重启过了,就不给大家演示了,那好我们就来演示演示我们如何来运用这个功能。首先第一个他说了,我们创建一个支持NLP的一个预处理通道。我们这里所谓的预处理通道呢,其实就是说在我们把数据存储到ES之前,我们提前做预处理,那这里呢,我们直接来拷贝,拷贝以后我们拿到这个位置来。这个地方呢,就是我们要创建一个我们的open lp的一个管道,它用来在数据存储到ES之前,提前进行我们的分析处理,那么它分析处理的字段呢,叫做message啊,我们提前定义好就可以了,好了,那么我们执行一下,执行以后没有任何的问题,那么我们现在就给他演示一下我们的数据操作,那好这里呢,我们直接来,首先我们增加我们的数据,这个数据啊,我们有两条数据,一个是一,一个是二。
03:26
我们都使用刚刚创建好的预处理通道,那么首先我们的它先拷贝一下。把这个去掉,我们来点击啊执行通过,没有任何问题,增加我们的第二个来拷贝,拷贝以后我们再来,拷贝以后我们再来啊执行。执行以后,大家会发现我们的消息就是message,大家会发现我们增加的数据,它的字段就叫message,里面会包含很多的内容,但是很多的内容当中啊,其实也包含了一些时间啊,人物啊和一些地点,这个如果让我们去做的话,可能不能准确的分析出来,为什么呢?太多了,而且有些可能是一些术语,我们可能不能准确的识别出来。
04:08
通过机器模型帮我们对我们的数据做预先处理。这样的话,保存到ES当中就是我们有效的数据了,那好我们一块来看一看,我们怎么看呢?很简单,我们查询一下就可以了,对于我们的get,我们把这个数据我们直接查询,查询以后我们点击箭头,你会发现我们的message就是我的消息,但是其实我们在后面就分析出了我们的时间。对吧,你看这就是我们的时间啊,没有任何的问题,那如果现在呢,你在分析第二个数据的话,因为第二个数据的话,它的内容会更丰富,所以我们分解出来的信息也会更加丰富,点一下点完以后,诶,我们这个应该改成二啊,来把它点击二点点击。点击完成以后,你会发现从这些消息当中,我们分解出来的关键词会更多一些,比方说我们的科比啊,我们的时间呢,还有我们的位置,对吧,这样的话会更加准确一些,所以啊,这些我们的机器学习的模型都是我们帮你准备好的,那如果大家想要更多的这种模型,需要找到我们的工具包去下载对应的学习模型其实就可以了,我们的ES只要帮助我们去集成这个功能,我们拿过来用就可以了,所以啊,我们使用起来会更加的方便,这就是我们ES软件当中如何来使用我们的NLP功能。
我来说两句