仅从BeautifulSoup获取数字，而不是整个div

BeautifulSoup是一个Python库，用于从HTML或XML文档中提取数据。它提供了一种简单而灵活的方式来遍历解析文档，并从中提取所需的信息。

如果你只想从特定的div标签中获取数字，而不是整个div，可以使用BeautifulSoup的find方法结合正则表达式来实现。

首先，你需要导入BeautifulSoup库和正则表达式库re：

from bs4 import BeautifulSoup
import re

然后，你可以使用BeautifulSoup解析HTML文档，并使用find方法找到特定的div标签：

html = '''
<div>
    <div>这是一个div标签</div>
    <div>这是另一个div标签</div>
    <div>123</div>
    <div>456</div>
</div>
'''

soup = BeautifulSoup(html, 'html.parser')
div = soup.find('div', text=re.compile(r'\d+'))

在上面的代码中，我们使用了正则表达式\d+来匹配一个或多个数字。然后，我们使用find方法找到文本内容匹配该正则表达式的div标签。

最后，你可以通过访问div的text属性来获取其中的数字：

number = div.text
print(number)

输出结果为：

这样，你就成功地从特定的div标签中获取了数字。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云官方网站：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎（TKE）：https://cloud.tencent.com/product/tke
云存储（COS）：https://cloud.tencent.com/product/cos
人工智能（AI）：https://cloud.tencent.com/product/ai
物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
移动开发（移动推送、移动分析、移动测试等）：https://cloud.tencent.com/product/mobile
区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云元宇宙：https://cloud.tencent.com/solution/virtual-universe

相关·内容

jquery 使用dialog弹窗显示在整个屏幕上，而不是只遮盖当前的ifream或div，另附dialog中加返回按钮，设置高宽等「建议收藏」

只需要在dialog钱加上top.就能达到目的了。可能不用人用的dialog不同，现实也会有差异，这里仅提供了小编的解决办法。仅供参考。

4.5K2 0

爬虫0040：数据筛选爬虫处理之结构化数据操作

预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。 (?!...预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始 (?<=pattern) 反向肯定预查，与正向肯定预查类拟，只是方向相反。...如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。...//div | //table 选取所有的div或者table节点 //table 选取所有 table 子元素，而不管它们在文档中的位置。...HTML DOM树实现的一种DOM操作，通过加载网页文档对象的形式，从文档对象模型中获取目标数据 BeautifulSoup操作简单易于上手，在很多对于数据筛选性能要求并不是特别苛刻的项目中经常使用，目前市场流行的操作版本是

3.2K1 0

5分钟轻松学Python：4行代码写一个爬虫

编程不是科学，而是一门手艺 Python 具有丰富的解析库和简洁的语法，所以很适合写爬虫。这里的爬虫指的是爬取网页的“虫子”。简而言之，爬虫就是模拟浏览器访问网页，然后获取内容的程序。...从本质上来说，这和打开浏览器、输入网址去访问没有什么区别，只不过后者是借助浏览器获取页面内容，而爬虫则是用原生的 HTTP 获取内容。...m = re.findall("\d", "abc1ab2c") 从"abc1ab2c"中提取出单个数字，"\d"表示提取的目标字符是数字，返回的结果是['1', '2'] 。...这是因为 content 是最原始的数据，二进制的数据流；而 text 则是经过编码的数据。在写文件时，参数也不是'w'，而是'wb'。'...wb'的意思是，写入的数据是二进制数据流，而不是经过编码的数据。爬取图片和爬取文字的本质，都是根据网页链接发送请求，然后获取内容，只不过图片需要用二进制的形式保存到本地文件中。

8832 0

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

上一篇文章的正则，其实对很多人来说用起来是不方便的，加上需要记很多规则，所以用起来不是特别熟练，而这节我们提到的beautifulsoup就是一个非常强大的工具，爬虫利器。...，如果文档中有多个这样的标签，返回的结果是第一个标签的内容，如上面我们通过soup.p获取p标签，而文档中有多个p标签，但是只返回了第一个p标签内容获取名称当我们通过soup.title.name的时候就可以获得该...children的使用通过下面的方式也可以获取p标签下的所有子节点内容和通过contents获取的结果是一样的，但是不同的地方是soup.p.children是一个迭代对象，而不是列表，只能通过循环的方式获取素有的信息...通过list(enumerate(soup.a.parents))可以获取祖先节点，这个方法返回的结果是一个列表，会分别将a标签的父节点的信息存放到列表中，以及父节点的父节点也放到列表中，并且最后还会讲整个文档放到列表中...，所有列表的最后一个元素以及倒数第二个元素都是存的整个文档的信息兄弟节点 soup.a.next_siblings 获取后面的兄弟节点 soup.a.previous_siblings 获取前面的兄弟节点

1.7K10 0

爬虫之数据解析

一、啥是数据解析　　在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找.... : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：...数字、字母、下划线 \W : 非\w \s ：所有的空白字符包,括空格、制表符、换页符等等。...[contains(@class, "ng")] //div[starts-with(@class, "ta")] 取文本： # /表示获取某个标签下的文本内容 # //表示获取某个标签下的文本内容和所有子标签下的文本内容...都是针对标签的解析方式，意思就是字符串得是一个标签字符串，其次是要先找到标签，然后获取标签的某个属性值　　2，xpath和BeautifulSoup找的标签，依然是一个对象，意思就是同样可以用那些方法

1K2 0

Python 从底层结构聊 Beautiful Soup 4（内置豆瓣最新电影排行榜爬取案例）！

认识 BS4 先从构造 BeautifulSoup 对象开始。BeautifulSoup 是对整个文档树的引用，或是进入文档树的入口对象。...a 标签是后 2 个标签的父亲，第一个 p 标签是第二个 p 标签的父亲，而不是兄弟关系。...BeautifulSoup对象是对整个 html 文档结构的映射，提供对整个 BS4 树操作的全局方法和属性。也是入口对象。...：搜索有 class 属性而没有 id 属性的标签对象。...对象 bs = BeautifulSoup(html_code, "lxml") # 使用过滤方法在整个树结构中查找 class 属性值为 pl2 的 div 对象。

1.2K1 0

用Python写一个小爬虫吧！

下面我来说说整个爬虫的设计思路：总体思路：以“前端”关键字进行搜索，把搜索结果上面每一个招聘信息的链接爬取下来，再通过这些招聘职位的链接去抓取相应页面上的具体要求。...2.获取搜索结果的链接，通过比较1,2两页的链接，发现只有一个数字的差别，所以我可以直接更改这个数字来获取每一页的链接 ?...fromType=4&dibiaoid=0&address=&line=&' \ 10 'specialarea=00&from=&welfare=#top' # url里面关乎页面跳转的数字我用...，也就有50个a标签，通过for循环，获取每个a标签的title属性，href属性 31 　　#title属性存放了职位名称，我可以通过职位名称把不是我需要的职位链接筛选出去 32 　　#href属性存放了每一个职位的链接...= div[:-2] 30 for eachInfo in jobInfo: 31 　　　　　#每个列表项存放着如***的bs4.element.Tag，要获取其中文字部分，要使用

1.2K2 1

Python爬虫经典案例详解：爬取豆瓣电影top250写入Excel表格

获取电影标题 title=item.div.a.span.string中item代表的是上面图片中的整个div元素(class='info')，那么它下一层（子层）div再下一层a再下一层span(class...='title'的)里面的文字“肖申克的救赎”就是我们需要的电影标题，所以是.div.a.span然后取内容.string 注意，一层层的点下去的方法只适合于获取到每层的第一个元素，比如前面图中我们知道实际有三个...获取年份段落 yearline=item.find('div','bd').p.contents[2].string这句话综合了find_all和.p两种方法，取到了item下面第二个div（class...yearline=yearline.replace(' ','') #去掉这一行的空格 yearline=yearline.replace('\n','') #去掉这一行的回车换行获取年份数字经过上面的处理...('div',"info"): title=item.div.a.span.string #获取标题 yearline=item.find('div','bd').p.contents[2].string

2.7K3 0

python爬虫之爬取笔趣阁小说

1.5K3 0

六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解

下面通过Python3代码可以获取电影的信息，调用BeautifulSoup中的find_all()函数获取的信息，结果如图所示...本部分将结合BeautifulSoup技术，采用节点定位方法获取具体的值。...，调用函数即可获取： find(attrs={“class”:“star”}).get_text() 但是存在一个问题，它输出的结果将评分数和评价数放在了一起，如“9.4 783221人评价”，而通常在做分析的时候...\d*’)获取字符串中的数字。第一个数字为电影的分数，第二个数字为评论数。...\d*') #正则表达式获取数字 print(mode.findall(info)) i = 0 for n in mode.findall(info): if i==0: print

1.1K2 0

Python爬虫入门教程：豆瓣读书练手爬虫

开始工作现在我们要用到BeautifulSoup的find_all()选择器，因为我们这一页有很多书，而每一本书的信息都包含在class=pl2的div标签内，我们使用find_all()就可以直接得到本页所有书的书名了...上面的代码写的优雅点，就是这样实现,注意结果是一个 list： # 书名, 注意是L小写，不是阿拉伯数字1alldiv = soup.find_all('div', class_='pl2')names......书名：活着作者：余华 / 南海出版公司 / 1998-5 / 12.00元评分：9.1简介：活着本身就是人生最大的意义================== 但是，我们要的是 250 条数据，而不是一页的十几条数据...start=为基层URL，每一页在后面加页面的页数数字。就可以得到所有的页面 url 了。再以for循环迭代每一个 url，使用上面获取数据的方法，获得所有的数据信息。...的解析 soup = BeautifulSoup(get_html(url), 'lxml') # 书名 alldiv = soup.find_all('div

6931 0

Python新手写出漂亮的爬虫代码1——从html获取信息

标签的倒数第二个子标签中，如红框1所示；而’下一页’则位于属性为class，属性值为’pagers’的div标签的最后一个子标签中，如红框2所示。...这里只介绍两个比较关键的方法： 1、find方法和findAll方法：首先，BeautifulSoup会先将整个html或者你所指定的html代码编程一个BeautifulSoup对象的实例（不懂对象和实例不要紧...，不过find只获取搜索到的第一个标签，而findAll将会获取搜索到的所有符合条件的标签，放入一个迭代器（实际上是将所有符合条件的标签放入一个list），findAll常用于兄弟标签的定位，如刚才定位口碑信息...，口碑都在dl标签下，而同一页的10条口碑对应于10个dl标签，这时候用find方法只能获取第一个，而findAll会获取全部的10个标签，存入一个列表，想要获取每个标签的内容，只需对这个列表使用一个for...创建html代码的BeautifulSoup实例，存为soup0 soup0 = BeautifulSoup(html0) # 获取尾页（对照前一小节获取尾页的内容看你就明白了） total_page

1.6K2 0

python在租房过程中的应用

BeautifulSoup的一些方法去获取对应的信息。...(疑问:既然Xpath的目标对象是XML，而BeautifulSoup也有XML的解析器，是不是可以用BeautifulSoup的xml进行解析得到xml文档，然后再用Xpath？...先分析目标网页url的构造，链家网的url构造还是很简单的，页码就是pg后面的数字，在租房这个栏目下一共有100页，所以我们循环100次就好啦。...还有就是明确我们要获取的信息，在前面我们说了是要研究公司附近的租房，但是我们在租房的时候也不是仅仅考虑距离这一个因素，这里我准备获取标题、价格、区域(大概在哪一块)、看房人数（说明该房的受欢迎程度）、第一特征...本次关于数据获取（抓取）的部分并没有太详细的解释，如果你觉得看得不是很懂那就回到文章开头部分看看以往的推送的爬虫文章，有详细的解释。更多精彩内容，请持续关注。

1.2K6 0

五.网络爬虫之BeautifulSoup基础语法万字详解

print(type(soup)) # 注意：因为 BeautifulSoup 对象并不是真正的HTML或XML的标签tag，...>, '\n'] 由于标题间和存在两个换行，所以获取的列表包括了两个换行，如个需要提取第二个元素，代码如下：另一个获取子节点的方法是children关键字，但它返回的不是一个...>、和。...BeautifulSoup爬虫已经讲完了，是不是比前面的正则表达式方便很多，而且爬取的函数也更加智能。...一方面是它具有智能化爬取网页信息的强大功能，对比前面的正则表达式爬虫，您就能体会到它的便捷和适用性，BeautifulSoup通过载入整个网页文档并调用相关函数定位所需信息的节点，再爬取相关内容.

1.2K0 1

要找房，先用Python做个爬虫看看

结果将是一些html代码，然后我们将使用这些代码获取我们的表格所需的元素。在决定从每个搜索结果属性中获取什么之后，我们需要一个for循环来打开每个搜索页面并进行抓取。...从底部的价格到包含每个结果并具有searchResultProperty类的标识符 house_containers = html_soup.find_all('div', class_="...在最后一步中，itertools帮助我从提取第二步中的数字。我们刚刚抓取到了我们的第一个价格！我们想要得到的其他字段是：标题、大小、发布日期、位置、状态、简短描述、房产链接和缩略图链接。...我仅从摆弄html结构和操作返回值以得到我想要的东西中就学到了很多。尝试反向复制上面的代码(删除[xx:xx]和[0]部分)，并检查结果以及我如何得到最终的代码。...最后一个转换现在，我们应该将所有这些变量保存在一个数据结构（dataframe)中，这样我们就可以将其保存为csv或excel文件，并在以后访问它，而不必重复上述过程。

1.4K3 0

python爬虫beautifulsoup4系列4-子节点

一、子节点 1.以博客园首页的摘要为例：这个tag为起点 2.那么div这个tag就是父节点 3."摘要: 前言本篇详细。。。"...bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com/yoyoketang/") # 请求首页后获取整个....获取div的子节点有两个，子孙节点有三个，因为a标签下还有个“阅读全文”这个string子节点 ?...五、爬取博客首页的标签内容 1.博客左侧的标签并不是这个链接：http://www.cnblogs.com/yoyoketang/ 2.通过抓包可以看到，这个url地址是：http://www.cnblogs.com...blogApp=yoyoketang") # 请求首页后获取整个html界面 blog = r.content # 用html.parser解析html soup = BeautifulSoup(blog

1.8K7 0

数据提取-Beautiful Soup

--没用--> # 4.1.1 获取标签 #以lxml方式解析 soup = BeautifulSoup(info, 'lxml') print(soup.title)...# 尚学堂注意相同的标签只能获取第一个符合要求的标签 # 4.1.2 获取属性： #获取所有属性 print(soup.title.attrs) #class='info...' float='left' #获取单个属性的值 print(soup.div.get('class')) print(soup.div['class']) print(soup.a['href'])...#info # 4.2 NavigableString 获取内容 print(soup.title.string) print(soup.title.text) #尚学堂 # 4.3 BeautifulSoup...因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为

1.2K1 0

四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？

数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习。...我们以获取第一页 20 本书的书名为例。...20个li for li in li_list: title = li.find('div', class_='name').find('a')['title'] # 逐个解析获取书名...成功获取了 20 个书名，有些书面显得冗长可以通过正则或者其他字符串方法处理，本文不作详细介绍。 2....="xxxxxxx"> 书名就藏在上面的字符串中，蕴含的网址链接中末尾的数字会随着书名而改变。

2.4K1 0

爬虫系列（7）数据提取--Beautiful Soup。

--没用--> 4.1.1 获取标签 #以lxml方式解析 soup = BeautifulSoup(info, 'lxml') print(soup.title)...# 百度注意相同的标签只能获取第一个符合要求的标签 4.1.2 获取属性： #获取所有属性 print(soup.title.attrs) #class='info...' float='left' #获取单个属性的值 print(soup.div.get('class')) print(soup.div['class']) print(soup.a['href'])...#info 4.2 NavigableString 获取内容 print(soup.title.string) print(soup.title.text) #百度 4.3 BeautifulSoup...因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为

1.3K3 0

技术学习：Python（18）｜爬虫篇｜解析器BeautifulSoup4（一）

如果不能使用apt-get获取安装，则可以使用pip或easy_install安装 $ easy_install beautifulsoup4 $ pip install beautifulsoup4...注意：如果是使用了beautifulsoup，而不是beautifulsoup4，那么可能安装了beautifulsoup3，而不是beautifulsoup4这个版本。... >>> 2.3 bs4的对象｜NavigableString 主要是用来获取标签对象内的文本，或替换文本。...下面获取div的文本内容，然后看下这个类型。注意，这里获取内容后，会忽略span这个标签。...因为 BeautifulSoup 对象并不是真正的HTML或XML的tag，所以它没有name和attribute属性。

1932 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云