前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【爬虫基础】网页是怎么构成的?

【爬虫基础】网页是怎么构成的?

作者头像
CDA数据分析师
发布2018-02-26 14:43:01
9360
发布2018-02-26 14:43:01
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

作者 张俊红

本文为 CDA 志愿者张俊红原创作品,转载需授权

所谓的网络爬虫就是从网页中指定位置找到对应的数据并下载,要想知道数据在什么位置,我们需要首先知道网页中的数据是如何显示与储存的,这篇主要是分享一下最基本的网页形式html。

01|什么是HTML:

HTML是用来描述网页的一种语言

  • HTML 指的是超文本标记语言 (Hyper Text MarkupLanguage)。
  • HTML 不是一种编程语言,而是一种标记语言 (markuplanguage),标记语言是一套标记标签 (markup tag)。
  • HTML 使用标记标签来描述网页。

02|HTML 标签:

  • HTML 标记标签通常被称为 HTML 标签 (HTML tag)。
  • HTML 标签是由尖括号包围的关键词,比如 <html>
  • HTML 标签通常是成对出现的,比如 <b> 和 </b>,标签对中的第一个标签是开始标签,第二个标签是结束标签。开始和结束标签也被称为开放标签和闭合标签。

(横线上方为html语言,横线下方为经过浏览器解析以后显示到屏幕上的内容)

几种常用的标签实例:

1、HTML链接

链接是通过<a> 标签进行定义的。

注释:在 href 属性中指定链接的地址。

2、HTML 图像

图像是通过<img >标签进行定义的。

3、HTML动态脚本

<script> 标签用于定义客户端脚本,比如 JavaScript。JavaScript 最常用于图片操作、表单验证以及内容动态更新,内容动态的更新比如空间动态、评论等。

03|HTML 元素:

HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。

1、HTML 元素语法:

  • HTML 元素以开始标签起始
  • HTML 元素以结束标签终止
  • 元素的内容是开始标签与结束标签之间的内容
  • 某些 HTML 元素具有空内容(empty content)
  • 空元素在开始标签中进行关闭(以开始标签的结束而结束)
  • 大多数 HTML 元素可拥有属性

2、嵌套的 HTML 元素:

大多数 HTML 元素可以嵌套(可以包含其他 HTML 元素),HTML 文档由嵌套的 HTML 元素构成。

04|HTML属性:

  • HTML属性是用来描述标签的。
  • 属性提供了有关 HTML 元素的更多的信息。
  • 属性总是以名称/值对的形式出现,比如:name="value"。
  • 属性总是在 HTML 元素的开始标签中规定。

几个比较典型的html属性:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01|什么是HTML:
  • 02|HTML 标签:
  • 03|HTML 元素:
  • 04|HTML属性:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档