一个 Chrome 插件
其实就是一个配置(入口)文件
manifest.json
和一系列 html、css、js、图片文件的集合
所以只要有前端基础
写一个简单的 Chrome 扩展是分分钟的事情
很巧,我正好有这些基础
分分钟写个bug出来看看
先看官方教程
https://developer.chrome.com/extensions
额。。。
不够语言友好
听说360是偷的Chrome的内核
http://open.chrome.360.cn/extension_dev/overview.html
没想到啊
360也有立功的时候
先花一个小时扫完这个教程
然后按照惯例
写一个Hello World出来
哎,突然发现已经有人做出来我想要的插件了
真是
总是比别人慢一步
直接拿来用吧
https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn?hl=en
第一步
Chrome浏览器打开安装上面这个叫Web Scraper的插件
哎,继续叹气
忘了描述需求了
我们需要获取微博关键词搜索“不想长大”的前50页结果的所有数据并汇总
第二步
打开这个页面
https://s.weibo.com/weibo?q=%E4%B8%8D%E6%83%B3%E9%95%BF%E5%A4%A7&Refer=SWeibo_box
空白处右键
检查元素或者inspect element
切换到web scraper小标签
第三步
create new site map
取个名字 weibo_50_page_scrap
因为要50页
start url里需要输入
https://s.weibo.com/weibo?q=%E4%B8%8D%E6%83%B3%E9%95%BF%E5%A4%A7&Refer=SWeibo_box&page=[1-50]
第四步
create new selector
定义单个微博
type选element
selector。。。
哎,操作比较复杂,你们就跳过吧
文末我直接放现成的
import去用就好了
第五步
逐个添加
作者
正文
时间
点赞评论转发数
第六步
爬取数据
第七步
下载为csv文件
50页,差不多977个结果
done
附上sitemap
这样直接在web scraper下面import就好
唯一需要修改的就是自己的关键词和页码了
当然也可以对六大爬取数据做一些增减
生命在于运动
技术改变生活
爬虫提高效率
领取专属 10元无门槛券
私享最新 技术干货