首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Python从具有有序跨度ID的HTML页面中抓取数据

使用Python从具有有序跨度ID的HTML页面中抓取数据
EN

Stack Overflow用户
提问于 2018-08-05 03:35:05
回答 1查看 178关注 0票数 0

我正在处理某些HTML页面,我需要从中抓取数据。问题是span ids是有编号的。例如:

代码语言:javascript
复制
ContentPlaceHolder_0, ContentPlaceHolder_1, ContentPlaceHolder_2 ..... ContentPlaceHolder_n

我需要在每个页面上从所有这些span标记中获取数据。使用Beautiful Soup获取此数据的最佳方法是什么?

EN

回答 1

Stack Overflow用户

发布于 2018-08-05 04:18:54

你可以试试BeautifulSoup内置的CSS选择器。这将选择ids以ContentPlaceHolder开头的所有span

代码语言:javascript
复制
soup.select('span[id^=ContentPlaceHolder]')

示例:

代码语言:javascript
复制
from bs4 import BeautifulSoup

html = """<span id='ContentPlaceHolder_0'>0</span>
<span id='ContentPlaceHolder_1'>1</span>
<span id='ContentPlaceHolder_2'>2</span>
<span id='ContentPlaceHolder_3'>3</span>

<span id='xxx'>xxx</span>"""

soup = BeautifulSoup(html, 'lxml')

for s in soup.select('span[id^=ContentPlaceHolder]'):
    print(s.text)

打印:

代码语言:javascript
复制
0
1
2
3
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51688989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档