Scrapy 框架爬虫学习笔记

写在开始 :

为什么选择Scrapy?

Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。相对入门简单,当然如果你足够了解正则,bs4 ,beautifulsoup 也是个不错的选择。

PS:需要一定的Python基础 简单的xpath 基础

创建项目(以音悦台榜单为例)

Url=http://vchart.yinyuetai.com/vchart/trends?area=ALL

启动 Anaconda Prompt

创建工程

进入工程目录

定义工作域爬虫名称

修改文件

itmes.py

定义要爬取的数据内容

Musiclist.py

爬虫主程序

分析HTML

标记为我们需要的信息

详细信息在ul 标签下的li 标签

依此找到标题歌手时间的 xpath 修改原始 musiclist.py 文件

Pipelines.py setting.py

运行爬虫

数据结果

已使用 Microsoft OneNote 2016 创建。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181005G1CNCQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励