学习
实践
活动
专区
工具
TVP
写文章

详解Python 采用 requests+Beautiful Soup 爬取豆瓣音乐

简介

大家好!最近刚刚开始接触Python爬虫,做了一个爬虫的小练习。我只知道豆瓣电影,却不知道豆瓣音乐,今天就分享如何爬取豆瓣音乐的数据?

目标总览

主要做三件事:

抓取网页数据

解析数据

存数据

软件环境:

Python3.6.0

Pycharm5.0.5

库(requests(获取)/BeautifulSoup(解析)/random/json/time/re)

爬取豆瓣音乐

def process_request()

随机获取user_agent

def main()

输入关键词和页数

def generate_allurl(user_in_nub,search_keywords,user_header)

获取该网页的标签

形参:

user_in_nub 爬取的页数

search_keywords 爬取音乐的标签

user_headerUSER_AGENTS随机列表的元素

翻页

def get_allurl(generate_allurl,user_header)

正则获取网页

形参:

generate_allurl 方法

user_headerUSER_AGENTS随机列表的元素

def open_url(re_get,user_header)

形参:

re_get 网页

user_headerUSER_AGENTS随机列表的元素

def writer_to_text(text)

保存文件为豆瓣音乐.txt

完整代码

抓取效果:

今天的分享就到这里

希望大家能够喜欢

如果您喜欢我们的文章、有数据相关的idea,来吧!和我们一起,在【Data室工作】微信公众号私信或留言。

——我是余白,我为团队代言

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180121G0IYEI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

关注

腾讯云开发者公众号
10元无门槛代金券
洞察腾讯核心技术
剖析业界实践案例
腾讯云开发者公众号二维码

扫码关注腾讯云开发者

领取腾讯云代金券