python爬虫之豆瓣音乐top250代码数据分析问题祝福

回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉害的兄弟可以教下我哦,过年有红包哦!!然后就还是在win7下开始写代码了(电脑太卡,一直不想装Python),今天爬的是豆瓣音乐top250,比较简单,主要是练练手。

代码

import requests
import re
from bs4 import BeautifulSoup
import time
import pymongo

client = pymongo.MongoClient('localhost', 27017)
douban = client['douban']
musictop = douban['musictop']

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]

def get_url_music(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    music_hrefs = soup.select('a.nbg')
    for music_href in music_hrefs:
        get_music_info(music_href['href'])
        time.sleep(2)

def get_music_info(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    names = soup.select('h1 > span')
    authors = soup.select('span.pl > a')
    styles = re.findall('<span class="pl">流派:</span> (.*?)<br />',wb_data.text,re.S)
    times = re.findall('<span class="pl">发行时间:</span> (.*?)<br />',wb_data.text,re.S)
    contents = soup.select('span.short > span')
    if len(names) == 0:
        name = '缺失'
    else:
        name = names[0].get_text()
    if len(authors) == 0:
        author = '佚名'
    else:
        author = authors[0].get_text()
    if len(styles) == 0:
        style = '未知'
    else:
        style = styles[0].split('\n')[0]
    if len(times) == 0:
        time = '未知'
    else:
        time = times[0].split('-')[0]
    if len(contents) == 0:
        content = '无'
    else:
        content = contents[0].get_text()
    info = {
        'name':name,
        'author':author,
        'style':style,
        'time':time,
        'content':content
    }
    musictop.insert_one(info)

for url in urls:
    get_url_music(url)

1加了请求头(本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因) 2这次是进入信息页爬的数据(上次爬电影没采用这种方法,缺少了部分数据) 3数据的预处理用了很多if函数,厉害的兄弟有什么优化的方法。

数据分析

1部分数据可以见上图 2中国音乐作者还是很多的,哈哈。 3随着音乐设备和网络的普及,流行音乐的发展,可以看出2000年后作品越来越多,到2010年又积极下滑(经典就是经典,无法吐槽现在的音乐) 4风格大家可以看出流行,摇滚,民谣占了一大半。 5最后弄了一首周董的《不能说的秘密》做词云,想想小时候都是回忆啊。

问题

import requests
import re
from bs4 import BeautifulSoup
import time
import pymysql

conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')
cursor = conn.cursor()

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,225,25)]

def get_url_music(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    music_hrefs = soup.select('a.nbg')
    for music_href in music_hrefs:
        get_music_info(music_href['href'])
        time.sleep(2)

def get_music_info(url):
    wb_data = requests.get(url,headers=headers)
    soup = BeautifulSoup(wb_data.text,'lxml')
    names = soup.select('h1 > span')
    authors = soup.select('span.pl > a')
    styles = re.findall('<span class="pl">流派:</span> (.*?)<br />',wb_data.text,re.S)
    times = re.findall('<span class="pl">发行时间:</span> (.*?)<br />',wb_data.text,re.S)
    contents = soup.select('span.short > span')
    if len(names) == 0:
        name = '缺失'
    else:
        name = names[0].get_text()
    if len(authors) == 0:
        author = '佚名'
    else:
        author = authors[0].get_text()
    if len(styles) == 0:
        style = '未知'
    else:
        style = styles[0].split('\n')[0]
    if len(times) == 0:
        time = '未知'
    else:
        time = times[0].split('-')[0]
    if len(contents) == 0:
        content = '无'
    else:
        content = contents[0].get_text()
    info = {
        'name':name,
        'author':author,
        'style':style,
        'time':time,
        'content':content
    }

    cursor.execute("use test")
    cursor.execute("insert into doubanmusic250 (name,author,style,time,content) values(%s,%s,%s,%s,%s)", (name,author,style,time,content))
    conn.commit()

for url in urls:
    get_url_music(url)

最近再学mysql,想用Python连接MySQL的,可是出错,附上代码,大牛们前来指导。代码出错图:

祝福

在这里住大家新年快乐,鸡年大吉。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WeTest质量开放平台团队的专栏

Qzone高性能HTTPS实践

自从去年QQ空间移动端页面开始切换到HTTPS之后,页面性能遇到了比较大的挑战,HTTPS对页面访问速度带来了比较大的影响,所以我们通过实践总结了一些能够提升H...

812
来自专栏日常学python

爬取《悲伤逆流成河》猫眼信息 | 郭敬明五年电影最动人之作

知道《悲伤逆流成河》上映还是在qq空间看见学弟发了说说,突然想起初中追小四的书,每天看到晚上10点多,昨天看了枪版的《悲伤逆流成河》,整个故事情节几乎和小说一模...

742
来自专栏博客园

【转载】理解本真的REST架构风格

    本文将带您领略REST架构的起源、与Web的关系、REST架构的本质及特性,以及REST架构与其他架构风格之间的比较。

793
来自专栏GIS讲堂

Openlayers中热力图的实现

Heatmap 是用来呈现一定区域内的统计度量,最常见的网站访问热力图就是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。Heatmap.j...

703
来自专栏FreeBuf

走近科学 | 揭秘在线DDoS攻击平台(上)

*本文原创作者: ArthurKiller 注:本文主张交流与科研学习,请勿对该技术进行恶意使用!本平台及作者对读者的之后的行为不承担任何法律责任。 ? 简介...

2617
来自专栏blackheart的专栏

[解读REST] 2.REST用来干什么的?

衔接上文[解读REST] 1.REST的起源,介绍了REST的诞生背景。每当笔者遇到一个新事物的想去了解的时候,总是会问上自己第一个问题,这个新事物是干什么用的...

1866
来自专栏逸鹏说道

分享一个Mvc的多层架构,欢迎大家拍砖斧正

多层架构是什么? 多层架构是开发人员在开发过程当中面对复杂且易变的需求采取的一种以隔离控制为主的应对策略,关于多层架构的标准,我认为有一句话是比较有代表性的“每...

2679
来自专栏SDNLAB

SDN实战团分享(三十):解读DC中的overlay与underlay

企业在上云的时候,一般不会抛弃现有的物理服务器与物理网络设备,而选择完全的虚拟化环境。其原因有如下几点:1. 保护存量投资,进行增量部署;2. 一些特殊类型的工...

4536
来自专栏SDNLAB

云数据中心网络虚拟化——网络虚拟化的传统技术之VLAN

VLAN(Virtual LAN,虚拟局域网),是一个局域网的虚拟化技术,官方文件参考IEEE 802.1q。对于做网络的人来说,谈起它简直是如数家珍。VLAN...

3266
来自专栏程序人生

如何阅读一份代码?

上文谈到了像读书一样阅读源码的重要性,今天谈谈如何阅读一份代码。我所谓的一份代码,其范围可能从几千行到数万行,有时甚至可多达数十万行。这些代码作为一个有机体,共...

3347

扫码关注云+社区