00:00
大家好,我是莫雨,今天给大家带来一期纯技术实操测评,主题是如何在longtimem中快速配置bird的data。实现高效的网页抓取和LLM数据增强,做大模型开发IG应用的朋友应该都深有体会,让唱想要拿到高质量的实时数据,反扒、IP封禁、数据解析这些问题真的太头疼了。今天我就基于本人data官方实操方案,一步一步带大家搞定集成全程无废话,都是一些可以复制的干货,记得看到最后先简单的说一下为什么要将波和long termm结合,Long termm是构建AI工作流的核心框架,核心能力就是连接外部数据,做rag。但原生的抓取方式短板特别明显,一个是公共IP池,随便爬几下就被封,成功率特别低,二是遇到动态的网站,它的验证就会卡壳,得自己花大量的时间去写代码,三是跨境数据,主流平台数据基本上拿不到,而本家代塔刚好能解决这些痛点,它有专门的longtimem官方集成包,不用自己去写样板代码,还有全球合规的IP池,自动反扒和数据分析的能力,相比其他的竞品,集成效率甚至提升了好多倍,这也是我今天重点测试这款工具的原因。接下来我们直接进入实操,开始之前先要准备好三个基础工具,这缺一不可。第一,本地要安装拍唱3及以上版本,这个是基础。第二,一个是bra的账号,后期要获取API密钥,大家可以。
01:50
去不的官网去注册一下,第三个是open AI API密钥,今天的示例会用到JPT4O mini做数据处理,没有的朋友自己申请一下。
02:03
呃,准备好之后,我们就开始搭建项目环境,全程用命令去执行,我会把关键的命令打到屏幕上,大家可以截图保存,跟着一步一步来。接下来我会把关键的步骤去拆开,重点去讲核心的配置和代码,全程基于bra官网latime be集成包,这也是官方推荐的最简单的集成方式,比直接调用API省太多事儿了。首先打开终端,先创建项目文件夹,输入以下命令回车,再进入文件夹。然后初始化Python虚拟环境Windows,把PYTH3换成PA Python就行了。虚拟环境能够隔离项目依赖,避免和本地的其他项目冲突,这是个良好的开发习惯。然后接着激活虚拟环境。如果是Linux和Mac OS的话,输入这个命令,Windows输入另外一个命令。
03:03
激活后,终端会显示VENV标识,这就说明环境搭好了。环境激活后直接输入安装命令,回车等待安装,三个库都是核心,第一个库用来管理环境变量,避免密钥直接写代码里,第二个包是longtime。姆和open AI的集成包,第三个是的官方为longtime姆开发的专属集成包,相比其他第三方视会包,兼容性拉满,不会出现版本冲突,这也是be比竞品贴心的地方。安装完成之后,在项目文件夹里创建两个文件,一个是script.py,用来写核心代码,一个是点ENV文件用来存的和open AI的API密钥,这样做的好处是密钥不会被泄露,后续换密钥的话直接改点en nv就行,不用动代码。现在在先导入这个文件夹,再写一个加载变量的方法,最后就是为了后续读取密钥做准备。这1。
04:11
题步比较关键,然后我们要登录不要对的账号,进入后台,点击右下角,然后找到API tokens选项,如果有现成的密钥就可以复制,没有的话点击ad token创建,注意密钥创建之后一定要保存好,复制密钥后打开点EV文件写入你的密钥。然后保存回到SPPY,导入webs API, 这个类是ta和long集成的核心,而且它会自动读取点1NV里面的密钥,不用手动查餐,比其他工具配置简单太多了。然后接下来sp.piy里面定义一个可复用的抓取函数,先初始化data SP API对象,然后用这个方法传入两个参数URL,抓取网页地址data set type是bridge data的解析类型,比如今天我们测试的领英person,专门用来解析领英个人主页bita专门支持了120多个网页的专属解析类型,不用自己写解析规则,这一点直接秒杀传统爬虫,省了大量的解析工作。
05:35
和一样,在点en nv文件里写入你的open AI的密钥,然后在script.py里面导入t open AI同时会自动解读密钥,不用额外配置,非常的方便。先定义要抓取的领英的URL,调用我们写的抓取函数,然后获取结构化的抓取数据,然后写一个LLM的提示词,把抓取的候选人数据传进去,让JPT-4o mini评判这个人是否适合远程软件工程师的这个岗位。接着调用chat open AI模型,传入提示词评估,再把结果导出成Json文件,方便后续查看。现在把所有的代码整合起来,我把完整的代码打在屏幕上,大家可以截屏,或者是在我的CSDN文章里拿取完整的代码和。
06:36
生成完之后在终端输入eon3victorct.py运行,大家可以看到终端会显示抓取的数据,创建提示词,调用JPT,导出JS文件,全程没有任何报错,很快就会完成。然后打开项目文件夹里面的JS文件,里面就是不data里抓取的里面的数据和JPT评估的结果,然后结果的话非常工整,也没有乱码和缺失,这就是贝的实例,大家可以看一下,用贝尔塔配置longtime之后整个抓取。
07:11
数据分析的流程也挺快的,然后数据成功率,呃,基本上就算百分之百,我之前用传统的免费代理做过同样的实验,抓取0数据的话,耗时得将近15分钟到半个小时,还被封了IP,数据解析出来还全是乱码,对比之下真的是呃,差距太明显了。总结一下本子的核心优势,这也是比其他竞品强的一个地方。不要对,他有那个longm的集成包,不用自己写代码和样品,然后集成的效率也直接拉满,第二个是120多个网页,专属的解析类型,自动化结构的数据,省了大量的解析工作,第三个是全球的合规IP池加自动反扒IP轮换,然后。
08:02
基本上本来的条都能全部自己搞定,再也不用怕IP被封。第4个是环境变量的管理密钥啊,安全又方便,适用于企业级开发。呃,以上就是long chat中配置的全部流程。传承的基于比如说这种的,呃,官方教程,然后步骤也比较简单,技术也比较容易复刻,大家在配置的过程中如果有任何问题,欢迎在评论区里面留言,我会一一解答。本期的技术测评就到这里,我是莫雨,咱们下期再见。
我来说两句