前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生)

轻松合理的获取数据 | 基于标记语言的开源爬虫框架(Trico cloud 云原生)

原创
作者头像
用户2257620
修改2021-06-17 10:19:00
4090
修改2021-06-17 10:19:00
举报
文章被收录于专栏:Trico CloudTrico CloudTrico Cloud

写在前面

名词解释

  • Trico 框架名。
  • Trico script 官方脚本代码。
  • Salyut 脚本虚拟机 负责语法解析,表达式解析。
  • Trico cloud Trico 生态,将脚本调度和虚拟机在云端部署。

Trico 的诞生

Trico起初是为了满足公司大量的数据提取需求(当然是公开可获取的:)),最早我们是使用 Java+Jsoup+selenium 来完成的。但是随着维护的网站数量越来越多,网站的改版等等异常将会产生大量的工作量,于是我们就想能不能有个轻量级的脚本,既可以热更新(快速的解决 Bug )又可以提供一些带有复合功能的元语 来提高开发效率。于是 Trico 就诞生了。

如何使用 Trico

Trico 是一个基于标记语言的脚本语言,词法相对都比较简单,学习曲线相对降低,一般的程序员 1 ~ 2 天即可以完全上手。当然我们也希望对于不是程序员背景也能使用 Trico,把他当作一个数据的提供者或者了解编程概念的语言。

看到这里想必你对 Trico 或多或少有一些兴趣,我们也开源了 Salyut 引擎,方便的话请给我们个 Star,给我们个鼓励。🌟

https://github.com/taofen8/salyut

Trico 目前状态

目前 Trico 服务于公司内部,中型互联网公司,国内外创业公司和独立开发者。Trico 的脚本市场正在在建设中。

Trico cloud

我们希望有更多的开发者加入到 Trico 生态中,贡献更多的脚本,让有获取数据需求的开发者能够快速经过原型阶段,把精力放在体验优化上。另外所有提交到 Trico cloud 的脚本都会通过系统或是人工审核,来保证公开的脚本都是允许获取的公开数据,并且 Trico cloud 会根据目标网站的体量来控制爬取速率,不影响网站本身的运行,净化数据爬取环境。

特性

  • 云端部署,无需负担任何机器成本,快速的推进业务。
  • 国内外主节点全覆盖,动态调度。
  • 开放脚本社区,构建数据生态。
  • 遵循 Robts 协议和用户隐私,安全绿色的获取公开信息。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写在前面
    • 名词解释
    • Trico 的诞生
    • 如何使用 Trico
    • Trico 目前状态
    • Trico cloud
      • 特性
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档