首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >火车采集器采集house365数据

火车采集器采集house365数据

作者头像
治电小白菜
发布2020-08-25 15:31:07
7370
发布2020-08-25 15:31:07
举报
文章被收录于专栏:技术综合技术综合

这次使用火车采集器来采集数据, 试试看如何

1.介绍

官网 火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。

2.进入软件

image.png

3.新建任务

image.png

4.配置任务

a. 配置需要获取内容页的页面地址

image.png

b. 分析页面分页

可以看到页面从第二页开始产生规律

image.png

c. 进行分页配置

image.png

image.png

d. 进行内容页链接采集

image.png

e. 配置内容页规则

双击内容页链接

image.png

d. 获取需要元素的xpath

Ashampoo_Snap_2019.04.16_20h40m39s_001_.png

image.png

f. 过滤一些不必要的标签和空格

Ashampoo_Snap_2019.04.16_20h40m39s_001_.png

g. 测试采集

image.png

image.png

注意:

可以看到, 联系电话没有, 如果用puppeteer就可以, 应为puppeteer用的开发者工具爬, 而采集器用的http请求源码

image.png

image.png

h. 配置线程

开大点采的快

image.png

i. 保存开采

image.png

5. 爬取结果

image.png

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.介绍
  • 2.进入软件
  • 3.新建任务
  • 4.配置任务
    • a. 配置需要获取内容页的页面地址
      • b. 分析页面分页
        • c. 进行分页配置
          • d. 进行内容页链接采集
            • e. 配置内容页规则
              • d. 获取需要元素的xpath
                • f. 过滤一些不必要的标签和空格
                  • g. 测试采集
                    • h. 配置线程
                      • i. 保存开采
                      • 5. 爬取结果
                      相关产品与服务
                      云开发 CLI 工具
                      云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档