专栏首页python入门学习教程python3 爬虫学习之html标签

python3 爬虫学习之html标签

在上一篇文章python3 爬虫学习python爬虫库-requests使用方法详细介绍中我们介绍了使用requests的使用方法

import requests         # 导入requests模块
url = 'http://www.baidu.com'           # 目标url地址
re = requests.get(url)          # 发起请求
print(re.text)           

输出结果

我们看到,pycharm给我们输出了很多的英文代码,这个其实就是网页的源代码,也是爬虫看到的东西,我们看到的百度首页是浏览器解析之后的样子。

为了弄懂爬虫解析和提取的代码究竟是什么意思,咱们得先来学习一下html的基础知识。

标签

示例

用法

<html>

<html>所有网页内容</html>

<html> 元素定义了整个 HTML 文档。这个元素拥有一个开始标签 <html> ,以及一个结束标签 </html>.

<body>

<body><p>这是第一个段落。</p></body>

<body> 元素定义了 HTML 文档的主体。这个元素拥有一个开始标签 <body>,以及一个结束标签 </body>。

<div>

<div>块内容</div>

定义文档中的分区或块

<p>

<p>这是一个段落。</p>

<p> 元素定义了 HTML 文档中的一个段落。这个元素拥有一个开始标签 <p> 以及一个结束标签 </p>.

<span>

<span></span>

定义 span,用来组合文档中的行内元素。

<a>

<a href="https://www.baidu.com">这是一个链接</a>

a标签用来放链接

<img/>

<img src="/images/logo.png" width="100" height="100" />

图片标签是一个自闭标签,没有结束标签

<h1>

<h1>这是一个标题</h1>

标题(Heading)是通过<h1> - <h6> 标签来定义的

...

...

...

<h6>

<h6>这是第六级标题</h6>

标题(Heading)是通过<h1> - <h6> 标签来定义的

HTML 标签语法
  • HTML标签以开始标签起始(不带斜杠的为开始标签:<html>
  • HTML标签以结束标签终止(带斜杠的为结束标签:</html>
  • 标签的内容是开始标签与结束标签之间的内容
  • 某些 HTML 标签具有空内容(empty content)
  • 空标签在开始标签中进行关闭(以开始标签的结束而结束)
  • 大多数 HTML 标签可拥有属性
HTML 标签嵌套示例
<!DOCTYPE html>
<html>

<body>
<h1>这是一个标题</h1> 
<p>这是第一个段落。</p>
</body>

</html>
HTML 自闭标签

标签

介绍

<br/>

表示换行。

<hr/>

表示画一条线。

<area/>

标签定义图像映射中的区域(注:图像映射指得是带有可点击区域的图像)。area 元素总是嵌套在 <map> 标签中。

<base/>

标签为页面上的所有链接规定默认地址或默认目标。

<img/>

放入图片。

<input/>

用户输入的标签。

<link/>

标签定义文档与外部资源的关系。 标签最常见的用途是链接样式表。

<meta/>

元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。标签位于文档的头部,不包含任何内容。<meta> 标签的属性定义了与文档相关联的名称/值对。

<basefont/>

标签定义基准字体。该标签可以为文档中的所有文本定义默认字体颜色、字体大小和字体系列。

<param/>

元素允许您为插入 XHTML 文档的对象规定 run-time 设置。

<col/>

为表格中一个或多个列定义属性值。

<frame/>

定义frameset中的一个特定的窗口。

<embed/>

可以在页面中嵌入任何类型的文档。

<keygen/>

标签规定用于表单的密钥对生成器字段。当提交表单时,私钥存储在本地,公钥发送到服务器。

<source/>

为媒介元素,定义媒介资源。

<command/>

元素表示用户能够调用的命令。标签可以定义命令按钮,比如单选按钮、复选框或按钮。只有当 command 元素位于 menu 元素内时,该元素才是可见的。否则不会显示这个元素,但是可以用它规定键盘快捷键。

<track/>

标签为诸如 video 元素之类的媒介规定外部文本轨道。用于规定字幕文件或其他包含文本的文件,当媒介播放时,这些文件是可见的。

<wbr/>

规定在文本中的何处适合添加换行符。如果单词太长,或者您担心浏览器会在错误的位置换行,那么您可以使用 <wbr> 元素来添加 Word Break Opportunity(单词换行时机)。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • python3 爬虫学习之html标签

    在上一篇文章python3 爬虫学习python爬虫库-requests使用方法详细介绍中我们介绍了使用requests的使用方法

    python鱼霸霸
  • python3 爬虫学习:爬取豆瓣读书Top250(三)

    我们在python3 爬虫学习:爬取豆瓣读书Top250(二)中已经爬到我们需要的几个数据,但是代码略显杂乱,输出的结果也并没有跟书本一一对应,所以这节课就要把...

    python鱼霸霸
  • python3 爬虫学习:爬取豆瓣读书Top250(二)

    上节我们讲到requests只是获取了网页数据,我们需要进一步,获取我们需要的并且能看懂的数据,这里需要用到新的库BeautifulSoup,他是一个HTML/...

    python鱼霸霸
  • python3 爬虫学习之html标签

    在上一篇文章python3 爬虫学习python爬虫库-requests使用方法详细介绍中我们介绍了使用requests的使用方法

    python鱼霸霸
  • SEO中不可忽视的h1到h6的应用

    那天在群里有位SEO大拿,于是我吵吵着让大佬帮我看下我的博客优化还能怎么搞,他回我说我的博客缺少h1标签。从这里拉开了话题。着重聊了些h1标签的内容,其实也都是...

    世纪访客
  • 如何批量印刷防伪标签、不干胶标签?

    防伪标签、不干胶标签,只需从底纸上剥离,轻轻一按,即可贴到各种基材的表面,也可使用贴标机在生产线上自动贴标。常见的有药品标签、食品标签、酒标签、电池标签、外箱标...

    用户6457849
  • 【CSS选择符】后代选择符

    在学习后代选择符之前,首先要了解一下组成一个网页的HTML家谱,每个HTML标签标示其中一个家庭成员。网页中的第一个HTML标签(标签),相当于所有其他标签的始...

    企鹅号小编
  • HTML知识清单(附学习网站)

    上面知识点知识本人总结的,想要深入学习的话请跳转至http://www.w3school.com.cn/专业的前段技术学习网站,免费开源!!!

    时间静止不是简史
  • 用HTML写一篇简单的日记

    在这篇文章之前,已经初步的了解了HTML是怎么创建了,接下来,我们要用创建的文件去写我们进入前端的第一个demo,当然了,如果你忘记了,我之前的文章里也有详细的...

    守护最温柔的金木
  • 【融职培训】Web前端学习 第2章 网页重构2 常用的html标签

    上一节我们已经了解了html和css的基本概念,本节通过上一节的一个例子来说说HTML的语法.

    学习猿地

扫码关注云+社区

领取腾讯云代金券