通过elasticsearch企业搜索采集腾讯ES文档原创

2023-11-012023-11-01 17:20:07播放5K

点赞2 收藏 0

如何通过elasticsearch企业搜索上的数据集成功能，采集腾讯云官网的ES文档

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
欢迎来到本期的节目，今天我将演示如何通过企业搜索获取数据。首先，我们需要登录我们的elastic search集群，并打开客on的界面。接着我们将访问企业搜索应用。步骤一，在应用界面中，我们可以选择创建新的as索引，这里我们选择采集方法为网络爬虫。我们将索引名称设置为腾讯ES文档，并选择中文分析器。接下来，我们需要输入腾讯云ES文档的网址作为爬虫的入口，并进行预验证。步骤二，在天加域之后，我们可以进行爬网规则的设定。通过设定扒网规则，我们可以确定我们想要的内容。例如，我们只想爬取ES的文档，而不是看腾讯上所有产品的文档。因此，在这里我们将过滤特定的网络路径。
01:04
步骤三，接下来我们设置内容的提取规则，首先我们创建的是文章的主体内容的提取，我们将从HTML元素中进行提取，通过浏览器的设置，我们可以找到文章主体的HTML元素ID，通过CTS选择器进行配置，然后提取值保存为字符串，这样我们就初步配置好了一个爬虫，可以进行一次快速的爬网，以了解我们的数据。步骤四，获得部分数据后，我们可以浏览我们的文档，可以看到这里的内容包含了大量的HTML格式的内容，非常不利于阅读，也无法进行向量转换，因此我们需要去掉冗余和不需要的数据。通过配置管道，我们可以。
02:05
进行数据的清洗和整理工作。在这里我们选择抛弃包含HTML信息的源字段，只保留我们提取的文章信息。然后我们看到了文章的段落标题是一个很好的总结内容，可以在将来进行向量转换，但因为是以数组的方式存储，我们将其转化为字符串，再移除不需要的字段。通过这些处理，我们将得到一套比较干净的数据步骤五。最后进行重新爬网操作。重新得到的数据就比较适合我们进行下一步的分析了。以上就是通过企业搜索获取数据的一个快速的演示过程，希望能对你有所帮助。

展开

我来说两句

0 条评论

登录后参与评论

作者

点火三周

通过elasticsearch企业搜索采集腾讯ES文档原创

我来说两句

作者

相关推荐

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐