详解Python 采用 requests＋Beautiful Soup 爬取豆瓣音乐

文章来源：企鹅号 - Data室工作

简介

大家好！最近刚刚开始接触Python爬虫，做了一个爬虫的小练习。我只知道豆瓣电影，却不知道豆瓣音乐，今天就分享如何爬取豆瓣音乐的数据？

目标总览

主要做三件事：

抓取网页数据

解析数据

存数据

软件环境：

Python3.6.0

Pycharm5.0.5

库（requests（获取）/BeautifulSoup（解析）/random/json/time/re）

定

义

方

法

爬取豆瓣音乐

def process_request()

随机获取user_agent

def main()

输入关键词和页数

def generate_allurl(user_in_nub,search_keywords,user_header)

获取该网页的标签

形参：

user_in_nub 爬取的页数

search_keywords 爬取音乐的标签

user_headerUSER_AGENTS随机列表的元素

翻页

def get_allurl(generate_allurl,user_header)

正则获取网页

形参：

generate_allurl 方法

user_headerUSER_AGENTS随机列表的元素

def open_url(re_get,user_header)

形参：

re_get 网页

user_headerUSER_AGENTS随机列表的元素

def writer_to_text(text)

保存文件为豆瓣音乐.txt

完整代码

抓取效果：

今天的分享就到这里

希望大家能够喜欢

如果您喜欢我们的文章、有数据相关的idea，来吧！和我们一起，在【Data室工作】微信公众号私信或留言。

——我是余白，我为团队代言

发表于: 2018-01-212018-01-21 20:00:12
原文链接：http://kuaibao.qq.com/s/20180121G0IYEI00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

详解Python 采用 requests＋Beautiful Soup 爬取豆瓣音乐

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐