前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学习了《python网络爬虫实战》第一个爬虫,爬取新浪新闻

学习了《python网络爬虫实战》第一个爬虫,爬取新浪新闻

作者头像
潇洒坤
发布2018-09-10 11:07:40
1K0
发布2018-09-10 11:07:40
举报
文章被收录于专栏:简书专栏

请安装anaconda,其中附带的spyder方便运行完查看变量 1.进入cmd控制台, 输入 pip install BeautifulSoup4 pip install requests 2.编写代码,代码已经很清晰了,直接运行不会报错并有成功的结果

代码语言:javascript
复制
def getNewsDetail(newsUrl):
    import requests
    from bs4 import BeautifulSoup
    from datetime import datetime  
    newsWeb = requests.get(newsUrl)
    newsWeb.encoding = 'utf-8'
    soup = BeautifulSoup(newsWeb.text,'lxml')
    result = {}
    result['title'] = soup.select('.main-title')[0].text
    result['newsSource'] = soup.select('.source')[0].text
    timeSource = soup.select('.date')[0].text
    result['datetime'] = datetime.strptime(timeSource,'%Y年%m月%d日 %H:%M')
    result['article'] = soup.select('.article')[0].text
    result['editor'] = soup.select('.show_author')[0].text.strip('责任编辑:')
    result['comment'] = soup.select('.num')[0].text
    return result  

def parseListLinks(url):
    import requests
    import json
    newsDetails = []
    request = requests.get(url)
    jsonLoad = json.loads(request.text.lstrip('  newsloadercallback(').rstrip(');'))
    newsUrls = []
    for item in jsonLoad['result']['data']:
      newsUrls.append(item['url'])
    for url in newsUrls:
      newsDetails.append(getNewsDetail(url))
    return newsDetails
      
if __name__ == '__main__':
    #获取单个新闻页面的信息
    newsUrl = 'http://news.sina.com.cn/s/wh/2018-01-08/doc-ifyqkarr7830426.shtml'
    newsDetail = getNewsDetail(newsUrl)
    #获取整个列表各个新闻页面的信息
    rollUrl='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw\
&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&\
show_num=22&tag=1&format=json&page=23&callback=newsloadercallback&_=1515911333929'
    newsDetails = parseListLinks(rollUrl)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.01.26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档