专栏首页飞总聊IT爬取数据不是非要Python

爬取数据不是非要Python

以下文章来源于数据管道 ,作者宝器

大家好,我是宝器!

最近有朋友问是否可以不用Python编程就能爬取数据并分析,想起来正好之前写了一篇文章,关于Web Scraper的使用,由于之前忘记标记原创,今天就再发一次。

本文背景

宝器想做头发了!

宝器想做头发了!

.....

别想歪,是去美容美发!

准备问一下上铺老王成都哪几家理发店比较好?怎么预约联系方式呀?地址在哪里呢?贵不贵?(毕竟不是每个人都能享受Tony老师的手活)

如果你也有这样这样的问题,不慌,请看本文正文,一起愉快的去看一下做头发要经过的步骤~

首先

打开屌丝必备之美团,然后找到酒店菜单栏.......

下面的美发一栏。

打开了吧,打开之后会有下面这样的一个图

啊呸!打开错了,应该是这样一个界面图:

你会发现上面的理发店信息数据中只有店名,人均消费这些,但是如果想看更详细的比如电话?比如营业时间怎么办呢?

必须再次点击上图某家店logo(带有二级链接,点击会跳转到下一级页面),打开之后就可以看到对应的每一家理发店更详细的信息了。

接下来就要思考一个问题,如何针对这种多级跳转链接、多元素(字段)抓取数据呢?

我还真..............................................不是不知道~

NOW

愉快的给大家安利一波插件,No BB,Show 工具!Show 方法!

第一步,下载安装Web Scraper。

第二步,安装好之后在第一个链接界面按住F12,创建一个站点。

第三步,添加一个选择器类型为Link选择器,注意,一定要选择Link选择器!

第四步,在二级链接界面同样按F12打开Web Scraper,添加一个element(元素)选择器(母选择器是link选择器)。

第五步,添加一个text选择器(母选择器是element选择器)选择所有你想要的字段信息,比如电话,比如地址,如下:

总结,这篇文章可能是针对有一定爬虫基础知识同学,如果不太懂上面的一些概念(比如元素、选择器等),建议简单阅读一下Web Scraper 官方文档。

你最终会得到如下树形逻辑图(核心思想),其中箭头部分所指就是你要的每一个字段信息。

Last,show 结果:

最后

今天出去忙了一天,这篇文章连夜赶出来的,现在的感觉欲仙欲死,抗不住,分析部分下次再做了。

本文分享自微信公众号 - 飞总聊IT(feiitworld)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 暗网悲剧的前半生:亲爹傻逼,养父脑残。

    暗网不负众望,2018年再次拉向高潮——华住旗下3千万酒店开房数据,在暗网中文论坛出售。

    用户1564362
  • 低代码开发平台,能让 CIO 们“快活”吗?

    自从 Forrester 创造了“低代码开发平台”术语以来,每年都会对低代码开发平台领域做出报告分析,根据 Forrester 的报告,低代码开发平台市场将从2...

    用户1564362
  • 你真的会写项目代码注释么?

    如果你写代码不写注释,那并不是个好习惯,你可能会说,你的代码只会自己使用,而事实上,自己写的代码可能过段时间自己也会忘记当时要表达的含义。

    用户1564362
  • 学习纲要:CSS 常用选择器

    Joel
  • 从零开始学 Web 之 CSS(一)选择器

    CSS 全称为 Cascading Style Sheets,中文翻译为“层叠样式表”,简称 CSS 样式表,所以称之为层叠样式表(Cascading Styl...

    Daotin
  • jQuery 选择器

    jQuery网页脚本语言核心之一 概述: 1. 选择器是jQuery的基础 2. 对事件处理,遍历DOM和Ajax操作都依赖于选择器 3. 可简化代码 什么是j...

    房上的猫
  • CSS选择器是如何确定优先级的?

    先看下面的示例 <div id="content"> <p id="title">Hello world</p> </div> 有如下的2个css选择器...

    dys
  • –ECMAScript 6 - 解构赋值

    大象无痕
  • 前端-CSS-初探-注释-语法结构-引入方式-选择器-选择器优先级-01(待完善)

    suwanbin
  • CSS基础

    css:Cascading Style Sheet 层叠样式表,简而言之 就是css的样式 是可以叠加的。默认 是根据css选择器的权重,按权重进行叠加,权重值...

    lesM10

扫码关注云+社区

领取腾讯云代金券