前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一日一知:国内爬虫开发人员的未来

一日一知:国内爬虫开发人员的未来

作者头像
青南
发布2022-04-07 19:20:36
1.2K2
发布2022-04-07 19:20:36
举报
文章被收录于专栏:未闻Code未闻Code未闻Code
先抛出我的观点:希望各位做爬虫的同学,尽快,尽可能多地做海外的爬虫项目,爬海外的网站,这才是你们新的未来。

最近两年,我已经没有做过国内任何网站的爬虫了,根据这两年爬海外网站的一些经验,谈谈我的发现和想法。

内地的环境不适合做爬虫

国内网站在这么多年的爬虫与反爬虫的斗争中,反爬能力越来越强,瑞数、极验和其它第三方专业反爬虫系统,已经能挡住很多人了。

国内值得爬的网站就只有几个,大家都在爬,你有1GB的数据,他有1TB的数据,内卷极其严重。并且还有很多工作室直接使用群控技术,几万台机器一起爬,普通人很难跟他们竞争。

国内一些专门做舆情分析的公司,他们甚至可以通过地下渠道直接拿到网站的内部API,数据质量比你通过爬虫爬的数据高多了。

最后,比较重要的是,爬国内的大网站,很容易被请喝茶。轻者拘留,重者在档案里面留下一辈子的污点。

海外数据的新机遇

NLP的语料

NLP最重要的四个元素就是:语料、模型、算法、算力。其中模型和算力可以复用,自然不是问题。但因为没有人抓海外的数据,因此缺少了语料,没有语料,就没有办法训练模型。NLP里面的ABSA、语意理解、文本生成、智能问答也全都做不下去。特别是小众语言——法语、俄语、韩语、西班牙语,几乎就没有国内的公司在做。

抓数据不难,但难在对数据的标注。现在国内对小众语言的标注,还停留在使用Google翻译把小众语言先翻译成英文,再让人去给英文打标的阶段。

如果你能尽早收集小语种的语料,然后让懂这个语料的人去打标,那么以后即便你不直接做NLP,光出售小语种的标注数据,你都可以大赚一笔。国内学习小语种的大学生,找工作都很困难。如果你能让他们兼职给你标注数据,不仅提供了就业岗位,而且价格非常低廉,属于是双赢。

语料抓取的壁垒不是爬虫技术,而是数据量和数据多样性。数据量达到一定规模以后,壁垒自然就能形成。别人的爬虫再先进,只要他短期收集不了那么多的数据,那么他就没有办法超过你。

总之,越早开始收集海外语料,越早能形成自己的壁垒。

游戏出海

众所周知,游戏在内地已经没有未来了,各大游戏厂商在接下来的几年会把游戏出海作为最重要的目标。目前已经有几家公司的游戏在东南亚大杀四方,在欧美市场也一路血洗当地的产品。想必大家都知道我说的是哪几个游戏。

但可以确定的是,目前国内做舆情分析的公司,还没有谁能够把海外舆情(特指非英语国家)分析做好。如果你有丰富的海外舆情抓取经验,那么当这些公司招聘的时候,你就有很高的竞争力。

尽职调查

除了游戏外,基于数据的尽职调查也是一个方向。投资人在确定是否要投资某个创业公司前,都会做尽职调查(DD)。其中基于数据的尽职调查(DDD)就是其中的重要一环。例如一个电商初创公司告诉投资人,他每个月的销售额有几百亿,然后你用爬虫爬一下他的商城,根据每个商品的销量和评论,反推出他的月销售额只有几百元,那么你就能知道这个电商公司在骗投资人了。

又比如某个直播网站,对投资人宣称自己的日活月活非常高,然后你用爬虫监控一下热门主播的评论数,礼物数,设计一个公式计算出它的真实日活月活,两边一对比你就知道他们有没有骗人了。

海外网站是新的蓝海

只要你把视野放开,稍微研究一下我国台湾、香港的网站,以及英法意德,巴西韩国,俄罗斯东南亚的网站,你就会发现:

  1. 大部分网站几乎没有反爬虫机制
  2. 语料极其丰富
  3. 小部分网站有极难的反爬虫系统(Akamai),但是可以通过曲折绕过的方式拿到数据
  4. 国内几乎没有竞争对手,你爬得越多,你积累的原始资本就越大

如果你是个人开发者,你几乎不用担心有什么风险。因为不会有人来找你喝茶。

怎么跟外国的公司竞争?

有人可能会问,难道美国、欧洲自己没有做爬虫、做舆情的公司吗?他们肯定也做了很多年了,为什么国内的公司要找你,而不去找这些欧美本土的公司?

我认为,就凭这五个字:你是自己人

如果你是一家中国的公司,专注分析海外舆情。即便你的业务能力跟一家欧美公司差不多甚至稍微低一些(当然低太多可不行),国内的大公司在选择合作伙伴的时候,一定会优先考虑你,而不是欧美当地的公司。

无论从人性上,还是从法律合规上,选择自己人都会安心很多。从人性上,中国人会选择跟中国人合作。大家都在互联网圈子,你这个公司怎么样,你这个老板怎么样,稍稍打听一下就知道了。只要知道你确实有实力,为什么不找你?

从业务上,两边公司沟通都用中文,有什么问题线上聊一下或者出个差,早上出发中午就能到,沟通起来很方便。

大公司应该怎么做爬虫?

我提到如果你是个人开发者或者小公司,那么你几乎不用担心任何风险。尽管爬就是了。

但如果你是国内的大公司,那么还是有一些注意事项的。因为大公司会担心像GDPR这样的信息保护法,也会担心如果爬虫被发现了会影响自己的国际声誉。但这些其实都不是什么大问题,都有办法绕过去的。

具体做法跟本文的关系不大,我就先不讲了。如果大家对爬虫出海有兴趣的话,请留言告诉我,我可以再分享一些具体的实践经验。

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 内地的环境不适合做爬虫
  • 海外数据的新机遇
    • NLP的语料
      • 游戏出海
        • 尽职调查
        • 海外网站是新的蓝海
        • 怎么跟外国的公司竞争?
        • 大公司应该怎么做爬虫?
        相关产品与服务
        NLP 服务
        NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档