问使用Python从具有有序跨度ID的HTML页面中抓取数据
EN

Stack Overflow用户

提问于 2018-08-05 03:35:05

回答 1查看 178关注 0票数 0

我正在处理某些HTML页面，我需要从中抓取数据。问题是span ids是有编号的。例如：

ContentPlaceHolder_0, ContentPlaceHolder_1, ContentPlaceHolder_2 ..... ContentPlaceHolder_n

我需要在每个页面上从所有这些span标记中获取数据。使用Beautiful Soup获取此数据的最佳方法是什么？

python

web-scraping

beautifulsoup

回答 1

Stack Overflow用户

发布于 2018-08-05 04:18:54

你可以试试BeautifulSoup内置的CSS选择器。这将选择ids以ContentPlaceHolder开头的所有span

soup.select('span[id^=ContentPlaceHolder]')

示例：

from bs4 import BeautifulSoup

html = """<span id='ContentPlaceHolder_0'>0</span>
<span id='ContentPlaceHolder_1'>1</span>
<span id='ContentPlaceHolder_2'>2</span>
<span id='ContentPlaceHolder_3'>3</span>

<span id='xxx'>xxx</span>"""

soup = BeautifulSoup(html, 'lxml')

for s in soup.select('span[id^=ContentPlaceHolder]'):
    print(s.text)

打印：

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51688989

复制

相似问题

问使用Python从具有有序跨度ID的HTML页面中抓取数据
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python从具有有序跨度ID的HTML页面中抓取数据EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Python从具有有序跨度ID的HTML页面中抓取数据
EN