温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
欢迎来到本期的节目,今天我将演示如何通过企业搜索获取数据。首先,我们需要登录我们的elastic search集群,并打开客on的界面。接着我们将访问企业搜索应用。步骤一,在应用界面中,我们可以选择创建新的as索引,这里我们选择采集方法为网络爬虫。我们将索引名称设置为腾讯ES文档,并选择中文分析器。接下来,我们需要输入腾讯云ES文档的网址作为爬虫的入口,并进行预验证。步骤二,在天加域之后,我们可以进行爬网规则的设定。通过设定扒网规则,我们可以确定我们想要的内容。例如,我们只想爬取ES的文档,而不是看腾讯上所有产品的文档。因此,在这里我们将过滤特定的网络路径。
01:04
步骤三,接下来我们设置内容的提取规则,首先我们创建的是文章的主体内容的提取,我们将从HTML元素中进行提取,通过浏览器的设置,我们可以找到文章主体的HTML元素ID,通过CTS选择器进行配置,然后提取值保存为字符串,这样我们就初步配置好了一个爬虫,可以进行一次快速的爬网,以了解我们的数据。步骤四,获得部分数据后,我们可以浏览我们的文档,可以看到这里的内容包含了大量的HTML格式的内容,非常不利于阅读,也无法进行向量转换,因此我们需要去掉冗余和不需要的数据。通过配置管道,我们可以。
02:05
进行数据的清洗和整理工作。在这里我们选择抛弃包含HTML信息的源字段,只保留我们提取的文章信息。然后我们看到了文章的段落标题是一个很好的总结内容,可以在将来进行向量转换,但因为是以数组的方式存储,我们将其转化为字符串,再移除不需要的字段。通过这些处理,我们将得到一套比较干净的数据步骤五。最后进行重新爬网操作。重新得到的数据就比较适合我们进行下一步的分析了。以上就是通过企业搜索获取数据的一个快速的演示过程,希望能对你有所帮助。
我来说两句