首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

详解Python 采用 requests+Beautiful Soup 爬取豆瓣音乐

简介

大家好!最近刚刚开始接触Python爬虫,做了一个爬虫的小练习。我只知道豆瓣电影,却不知道豆瓣音乐,今天就分享如何爬取豆瓣音乐的数据?

目标总览

主要做三件事:

抓取网页数据

解析数据

存数据

软件环境:

Python3.6.0

Pycharm5.0.5

库(requests(获取)/BeautifulSoup(解析)/random/json/time/re)

爬取豆瓣音乐

def process_request()

随机获取user_agent

def main()

输入关键词和页数

def generate_allurl(user_in_nub,search_keywords,user_header)

获取该网页的标签

形参:

user_in_nub 爬取的页数

search_keywords 爬取音乐的标签

user_headerUSER_AGENTS随机列表的元素

翻页

def get_allurl(generate_allurl,user_header)

正则获取网页

形参:

generate_allurl 方法

user_headerUSER_AGENTS随机列表的元素

def open_url(re_get,user_header)

形参:

re_get 网页

user_headerUSER_AGENTS随机列表的元素

def writer_to_text(text)

保存文件为豆瓣音乐.txt

完整代码

抓取效果:

今天的分享就到这里

希望大家能够喜欢

如果您喜欢我们的文章、有数据相关的idea,来吧!和我们一起,在【Data室工作】微信公众号私信或留言。

——我是余白,我为团队代言

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180121G0IYEI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券