为什么说到网页爬虫都会想到用Python？

文章来源：企鹅号 - 希章分享

因为 Python （拍散，派森）确实是属于爬行动物——蛇类，蟒蛇属！

-----优雅的分割线-----

不开玩笑啦，实际上现在有专门的书籍讲解这方面的内容，我这里分享一下使用Python做网页爬虫一些基本套路。

对于初级用法来说，掌握requests和beatifulsoup就可以快速编写一个简单的网页爬虫；而稍微高级一点的话，你就需要掌握身份认证和cookie等技巧了，需要用到selenium等库，甚至还有图片验证码解析的pytesseract库；最后，如果你是一个需要长期运行，或者有大量数据需要爬的话，则可能会用到多线程等技术，例如multiprocessing库，甚至还需要考虑分布式设计。

编写网页爬虫最有趣或者最挑战的地方，不在于上面提到的这些技术（实际上你很容易掌握），而是网页的作者（也是开发人员）可能会有意识地跟你玩一些游戏，让你不那么容易爬到内容。所以你也许能体会到 “与人斗，其乐无穷”的独特魅力。

编写网页爬虫一般都是有明确目的的，例如我就听说有一个朋友因为上海的车牌很难拍到，一气之下就写了一个脚本做并发处理，也不知道是运气好还是怎么回事，总之最后的结果是她如愿在第二个月中签，真是知识改变命运的经典范例啊。

发表于: 2018-12-092018-12-09 14:44:36
原文链接：https://kuaibao.qq.com/s/20181209G0LMMV00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

为什么说到网页爬虫都会想到用Python？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐