腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
java初学
专栏成员
举报
81
文章
88772
阅读量
30
订阅数
订阅专栏
申请加入专栏
全部文章(81)
java(21)
编程算法(15)
存储(15)
其他(13)
人工智能(8)
xml(7)
数据库(7)
sql(6)
mybatis(6)
android(5)
云数据库 SQL Server(4)
spring(4)
缓存(4)
jvm(4)
python(2)
servlet(2)
jsp(2)
容器(2)
网络安全(2)
hashmap(2)
scrapy(2)
dubbo(2)
安全(2)
微服务(2)
负载均衡(1)
数据挖掘(1)
c++(1)
.net(1)
textview(1)
memcached(1)
搜索引擎(1)
unix(1)
负载均衡缓存(1)
apache(1)
mapreduce(1)
消息队列 CMQ 版(1)
mongodb(1)
爬虫(1)
jdbc(1)
asp(1)
zookeeper(1)
aop(1)
tcp/ip(1)
udp(1)
anaconda(1)
数据处理(1)
windows(1)
数据结构(1)
https(1)
kafka(1)
搜索文章
搜索
搜索
关闭
scrapy(1)——scrapy介绍
scrapy
数据挖掘
存储
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。 Scrapy 使用 Twis
Mister24
2018-05-14
942
0
scrapy(2)——scrapy爬取新浪微博(单机版)
scrapy
爬虫
python
mongodb
anaconda
Sina爬虫教程 Scrapy环境搭建 环境:window10 + python2.7(包含scrapy)+ mongoDB 1.1 安装集成了python2.7的anaconda anaconda下载链接:https://www.continuum.io/downloads 由于scrapy库目前只能在python2.7上使用,请务必确保版本正确,如果已经安装了python3.5,建议使用anaconda_2.7的版本,因为anaconda中集成了python2.7且使用anaconda安装第三库非常方便
Mister24
2018-05-14
2.4K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档