前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不用代码,10分钟采集58同城二手车数据信息

不用代码,10分钟采集58同城二手车数据信息

作者头像
沉默的白面书生
发布2018-05-07 14:45:50
1.3K0
发布2018-05-07 14:45:50
举报
文章被收录于专栏:全栈数据化营销

最近得空把之前的一些案例稍微整理一下,之前做的案例有:

案例1:汽车之家网站奔驰宝马宝马信息采集

案例2:天涯论坛各个板块文章信息采集

案例3:豆瓣电影、读书板块信息数据和评论数据采集

案例4:淘宝茶叶数据采集、竹浆纸数据采集、充电宝数据采集

案例5:京东小米手机数据采集、京东众筹商品数采集

案例6:大众点评泉州美食数据采集、58同城泉州租房信息数据采集

案例7:咪蒙、韩寒、郭敬明微博粉丝及评论采集

案例8:舌尖上的泉州、李叫兽、咪蒙等20个公众号文章、阅读数据采集

之前在简书上对部分内容做了分析,有兴趣都可以去看看简书的文章:

案例1:咪蒙文章特点分析-为什么咪蒙文章那么受欢迎

案例2:京东商城加湿器产品销售分析

案例3:京东众筹成功影响因素分析

案例4:泉州美食、租房情况分析

案例5:淘宝面膜产品分析

案例6:铁观音茶叶市场前景和竞争分析

那么今天就介绍一下如何不用代码,10分钟采集58同城上二手车数据,我们需要的数据包括车型、使用时间、油量、使用里程、价格等维度信息

第一步:创建采集任务

创建采集任务,将要采集的网站URL复制粘贴到输入框中,点击“保存网址”

第二步:提取需要的信息

1、选择需要的采集范围,让需要的信息呈现蓝色,点击鼠标即可选中

2、点击鼠标后,在弹出来的对话框选择“创建一组元素”即可

3、经过2次的范围选择之后,点击创建列表完成,就得到了需要的信息范围,得到如下图:

4、点击循环,即可获得页面的全部信息

第三步:提取目标信息

1、将鼠标移到标题上,待选择的标题变成蓝色后,点击鼠标,得到如下图对话框,选择“抓取这个元素的文本”

2、此时需要的信息出现在右侧的信息框中,如果需要对字段名称修改,点击即可修改。

3、对于需要的其他信息也是按照类似的方法获取,最终:

第四步:设置翻页和AJAX设置

1、将鼠标移到页面底端的翻页处,把鼠标放在“下一页”上,变成蓝色后,即可点击选中:

2、在弹出的对话框中选择“循环点击下一页”即可建立好翻页,可以将后面几页的信息自动选中。

3、然后鼠标选中左边规则中的“点击翻页”,在左边的高级选项中点开下拉页面,在“AJax加载”一项中勾选AJax加载数据,超时2秒。

注:AJAX即延时加载、异步更新的一种脚本技术,通过在后台与服务器进行少量数据交换,可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

表现特征:

1.点击网页中某个选项时,大部分网站的网址不会改变;

2.网页不是完全加载,只是局部进行了数据加载,有所变化

第五步:数据采集及导出

1、Ajax设置完成之后,再重新启动本地采集

2、采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.02.07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档