首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Scrapy 框架爬虫学习笔记

写在开始 :

为什么选择Scrapy?

Scrapy 是一套基于Twisted的异步处理框架,是纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容或者各种图片。相对入门简单,当然如果你足够了解正则,bs4 ,beautifulsoup 也是个不错的选择。

PS:需要一定的Python基础 简单的xpath 基础

创建项目(以音悦台榜单为例)

Url=http://vchart.yinyuetai.com/vchart/trends?area=ALL

启动 Anaconda Prompt

创建工程

进入工程目录

定义工作域爬虫名称

修改文件

itmes.py

定义要爬取的数据内容

Musiclist.py

爬虫主程序

分析HTML

标记为我们需要的信息

详细信息在ul 标签下的li 标签

依此找到标题歌手时间的 xpath 修改原始 musiclist.py 文件

Pipelines.py setting.py

运行爬虫

数据结果

已使用 Microsoft OneNote 2016 创建。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181005G1CNCQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券