00:00
哈喽,大家好,我是于小霞。本期视频我给大家带来的是解决一个AI项目里很现实的问题,训练数据和知识库语料从哪里来?无论是做IG知识库文本分类还是大模型的微调,都要先把网页中的公开文本整理成结构化的一个数据。那么今天我会使用量数据的这个排序器,然后从一个公开文本网站采集正文、作者标签,然后最后输出结构化的接省。整个过程的话,我们不需要自己搭服务器,也不需要手动的配置代理,那么这个当前这个页面就是我们的目标网站。本次使用的是公开的文本演示的一个网站,这里的每条内容都是包含的是文本的一个正文,还有一个作者。标、作者,还有标签这些,那么我们的目标就是把这个网页的内容整理成三个结构化,3个结构化的一个字段,一个是T,一个是作者,一个是。
01:08
标签。那么这里采集的话呢,都是公开可见的一个信息,所以呢,我们这边是不会本期视频是不会涉及账号联系方式和其他的一些隐私数据的,那我们回到梁书记的这个首页,这边的话是我从官网登录上来的。官网的注册链接我会放在视频的下方,通过链接注册的话,还有免费的额度可以领取哦。首先我们点击左侧的这个排序器。然后我们点击爬虫库。在这里的话,我们可以自定义一个。这里的话呢,就是量数据的这个AI自动帮我们构建一个排除输入数据的一个程序,那么只需要在这里输入我们的一个目标网址就可以了。
02:06
然后我对网址做一个粘贴。我们直接,然后我们直接点击开始就可以。嗯。那么他现在的话呢,是已经解析完了这个网址的话,然后他现在是需要我们对这里是做什么,我们给他一个提示词,那么这个题词的话,就是让他从当前的这个。URL当中,然后就提取公开的一个文本的内容,然后对于每个引用的话呢,是要返回文本作者标签,但是仅抓取当前的这个页面。只收取一个公开可见的一个信息,所以我们是不会涉及隐私的。
03:05
最后的话呢,这会是返回一个,我要求他返回的是一个精神格式的一个。结构化数据。那么可以看到呢,AI的话自动分析网页,然后并生成了对应的采集的逻辑,逻辑好我们直接点击。这边是这边的话呢,是一组测试的一个数据,我们这边可以看到正文,还有作者,还有一个标签。那么这个弹簧出来的话呢,就代表我们的一个采集数据的话呢,是已经在数据程序是完成了,然后我们直接点击开始采集数据。
04:12
那么在这里的话呢,我们什么都不需要做,直接点一个拉,我们今天开开始数据的一个抓取。在这个页面我们可以看到这有个触发。这个下方有一个动画的一个图标,这个的话呢,是可以观看我们的实时的一个采集进度的啊,可以看到非常的快啊,已经完成了啊,我们把我们下载这个数据的话,我们下载一个接着的看看。看他有没有按照我们的要求,我们打开。可以看到这就是我们要求的正文,正文的内容还有作者的名称,还有这条数据的这条内容的一个标签,我们页面页面中的非结货化文本的话,已经被整整理成了一个非常标准的一个节省数据,这样这种数据的话,比直接保存网页的源代码是比较更加容易处理的,也方便进入数据清洗,然后知识库还有其他的AI的一个工作。
05:20
我们把它关掉。如果你的一个需求的话,你要采集的数据的话有所变化,有一些微调的话,我们可以点击右侧的这个,我们可以在这里看到有一个交互代码和一个解析器的代码,在这边的话,我们可以通过。修改这个代码,然后进行一个采集数据的一个尾调。但是量数据的这个AI这个自己给我们生成的这个已经是很好的了,已经符合了我们所有的要要求,已经完成了的,那么到这里总结一下,这次的话我只输入了目标的网址和需要的一个字段,AI就自动生成的一个采集的逻辑,并返回了结构化的一个阶。
06:11
在这边的话,我们还可以有CSV,然后有有不同的一个数据集的一个格式,数据采集格式啊,现在是回到了盘龙库这个页面啊,我们简单来做一下身边的这个总结。在我此测下来的话,量数据它这个是是有四大优点的,主要是第1点,它可以把服务器代理轮换,还有IP封锁失败,从事这些基础的设施他都可以交给让数据这个平台来进行处理,那么使用者他只需要关心自己想采集什么样的数据就可以了。第二呢,就是我们刚才使用的那个AI engine, 它可以根据自然的语言,我们的需求,然后自动生成输出结构和采集的代码,对于不会写爬虫的小白来说的话,上手门槛是明显很低的,对于开发者来说,生成以后的代码也可以继续放到IDE中进行修改,并不会失去自己的控制权。
07:12
第三的话,它返回的并不是一个混乱的一个网页源码,而是可以直接处理的我们一个节省的的一个结构化的数据,我们刚才已经是打开来看过了,像这次采集到的一个正文作者标签,他就能够进行下一步的数据获取之后,然后就可以进入下一步的流程,进行数据清晰,去重筛选等等的一个流程。啊,最后一点的话呢,就是它更适合目标网站,没有现成的一个爬虫,但是你的团队又不想重新搭建一整套的一个采集系统场景。那么就可以使用,这样的话可以减少开发和后期的一个维护成本。整整体来看的话呢,当时觉得这个。爬爬水器的话,它是更像把网页采集、代理、基础设施和结构化的输出整合成了一套工作流。对于AI的创业团队、积极学习工程师和大模型的研究人员来说的话,他能够缩短从公开网页到可处理语料之间的一个准备过程。
08:17
啊,以上视频内容就是这些,谢谢大家。
我来说两句