为什么说到网页爬虫都会想到用Python?

因为 Python (拍散,派森)确实是属于爬行动物——蛇类,蟒蛇属!

-----优雅的分割线-----

不开玩笑啦,实际上现在有专门的书籍讲解这方面的内容,我这里分享一下使用Python做网页爬虫一些基本套路。

对于初级用法来说,掌握requests和beatifulsoup就可以快速编写一个简单的网页爬虫;而稍微高级一点的话,你就需要掌握身份认证和cookie等技巧了,需要用到selenium等库,甚至还有图片验证码解析的pytesseract库;最后,如果你是一个需要长期运行,或者有大量数据需要爬的话,则可能会用到多线程等技术,例如multiprocessing库,甚至还需要考虑分布式设计。

编写网页爬虫最有趣或者最挑战的地方,不在于上面提到的这些技术(实际上你很容易掌握),而是网页的作者(也是开发人员)可能会有意识地跟你玩一些游戏,让你不那么容易爬到内容。所以你也许能体会到 “与人斗,其乐无穷”的独特魅力。

编写网页爬虫一般都是有明确目的的,例如我就听说有一个朋友因为上海的车牌很难拍到,一气之下就写了一个脚本做并发处理,也不知道是运气好还是怎么回事,总之最后的结果是她如愿在第二个月中签,真是知识改变命运的经典范例啊。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181209G0LMMV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券