前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >火车采集器采集house365数据

火车采集器采集house365数据

作者头像
治电小白菜
发布2020-08-25 15:31:07
发布2020-08-25 15:31:07
8310
举报
文章被收录于专栏:技术综合技术综合

这次使用火车采集器来采集数据, 试试看如何

1.介绍

官网 火车采集器是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。软件凭借其灵活 的配置与强大的性能领先国内数据采集类产品,并赢得众多用户的一致认可。

2.进入软件

image.png

3.新建任务

image.png

4.配置任务

a. 配置需要获取内容页的页面地址

image.png

b. 分析页面分页

可以看到页面从第二页开始产生规律

image.png

c. 进行分页配置

image.png

image.png

d. 进行内容页链接采集

image.png

e. 配置内容页规则

双击内容页链接

image.png

d. 获取需要元素的xpath

Ashampoo_Snap_2019.04.16_20h40m39s_001_.png

image.png

f. 过滤一些不必要的标签和空格

Ashampoo_Snap_2019.04.16_20h40m39s_001_.png

g. 测试采集

image.png

image.png

注意:

可以看到, 联系电话没有, 如果用puppeteer就可以, 应为puppeteer用的开发者工具爬, 而采集器用的http请求源码

image.png

image.png

h. 配置线程

开大点采的快

image.png

i. 保存开采

image.png

5. 爬取结果

image.png

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.介绍
  • 2.进入软件
  • 3.新建任务
  • 4.配置任务
    • a. 配置需要获取内容页的页面地址
    • b. 分析页面分页
    • c. 进行分页配置
    • d. 进行内容页链接采集
    • e. 配置内容页规则
    • d. 获取需要元素的xpath
    • f. 过滤一些不必要的标签和空格
    • g. 测试采集
    • h. 配置线程
    • i. 保存开采
  • 5. 爬取结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档