腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一个爱吃西瓜的程序员

莫道君行早，更有早行人。

专栏作者

70

文章

84791

阅读量

23

订阅数

全国共有本科院校1100所

开放数据源可以从两个维度来考虑：一个是单位的维度，比如政府、企业和高校。二是行业的维度，比如交通、旅游、金融等领域。

爱吃西瓜的番茄酱

2019-03-07

4770

用23行代码爬取豆瓣音乐top250

豆瓣对于爬虫十分友好，而且豆瓣上面又有各种电影图书音乐等资源，是我们学习爬虫一个很不错的锻炼目标。基本上每个学习爬虫的人都会拿豆瓣来练练手。网上有各种爬取豆瓣电影top250的教程，虽然豆瓣音乐top250和豆瓣电影top250的爬取十分类似，但是我大致对比了一下，我这种方法应该是最简单的，仅需要23行代码。好吧，如果你有更简单的方法，欢迎给我评论留言交流交流，共同进步。抓取目标：豆瓣音乐top250的歌名、作者（专辑）、评分和歌曲链接使用工具：requests + lxml + xpath。我认为

爱吃西瓜的番茄酱

2018-04-04

1.2K0

Python爬虫实战-抓取《盗墓笔记》所有章节及链接

本次以一个盗墓笔记的小说阅读网（http://seputu.com）为例，抓取盗墓笔记的标题、章节名和链接，如下图前提：这是一个静态网站，标题、章节都不是由JavaScript动态加载的，无代理，

爱吃西瓜的番茄酱

2018-04-04

1.7K0

学习编程的你，遇到了Bug该怎么办？

这里我先回答标题的问题，答案就是：百度！直接把错误提示复制在搜索栏，用百度搜索。如果没有现成的错误提示，只有模糊的需求，那就整理一下需求，组织一下语言，然后用百度搜索自己的需求。不要担心在百度上搜不到解决方案，真的，除非你已经在某个领域达到了比较高的水平，否则一定可以在百度上找到想要的答案的。关于编程上的问题，解决办法常在CSDN、博客园、segmentfault、Stackoverflow、知乎或简书之中。善用百度，可以使我们的学习更加高效。（能用谷歌当然更好）举个栗子吧：这段时间我一直在学习爬

爱吃西瓜的番茄酱

2018-04-03

7170

Python爬虫学习--爬虫基本架构

一个简单的爬虫架构由爬虫调度端、URL管理器、网页下载器和网页解析器四部分构成。它们之间的关系如下图： ● 爬虫调度端：启动爬虫，停止爬虫，监视爬虫的运行情况。 ● URL管理器：管理待爬取的URL和

爱吃西瓜的番茄酱

2018-04-03

1K0

Python爬虫学习--用爬虫抓取糗事百科的笑料

构造一个爬虫需要以下四个步骤：分析目标、下载页面、解析页面、存储内容，其中存储内容暂且不提。（因为我还没学） ◆ 分析目标：我的目标是抓取糗事百科24小时热门笑料的第一页的所有笑料内容，不包括图片信息

爱吃西瓜的番茄酱

2018-04-03

8280

Python爬虫学习-抓取百度百科python词条页面的所有词条及其连接

这几天我学习爬虫有点过于激进，妄想一鼓作气地学会爬虫，结果随便踩进一个坑就跳不出来了。郁闷了一天，最终发现还是自己的基础太差，比如基础的函数、文件输出等都没有掌握好。这样的水平是没法写出复杂的爬虫的。

爱吃西瓜的番茄酱

2018-04-03

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态