文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用漂亮的汤从li标签中抓取日期？

问如何使用漂亮的汤从li标签中抓取日期？
EN

Stack Overflow用户

提问于 2021-08-16 20:51:09

回答 2查看 40关注 0票数 0

我抓取了特定类的所有li标记，并得到了输出：

<li>Aug 14-18, <a href="https://ai4good.org/fragile-earth-2021/">Fragile Earth 2021</a>, develop radically new technological foundations for advancing and meeting the Sustainable Development Goals. Online KDD-21 workshop.
</li>

<li>Aug 19-26, <a href="https://ijcai-21.org/">IJCAI-21: 30th Int. Joint Conference on Artificial Intelligence</a>. Montreal-themed Virtual Reality, Online.
</li>

我可以分别提取href和text，但是我也希望将日期存储在一列数据帧中，或者至少分别获取日期。你知道我该怎么做吗？

以下是该网站的链接：https://www.kdnuggets.com/meetings/index.html#Y21-10

beautifulsoup

jupyter-notebook

google-colaboratory

python

Stack Overflow用户

发布于 2021-08-16 20:57:14

我认为这应该可以做到这一点：

from bs4 import BeautifulSoup

soup = BeautifulSoup("""<li>Aug 14-18, <a href="https://ai4good.org/fragile-earth-2021/">Fragile Earth 2021</a>, develop radically new technological foundations for advancing and meeting the Sustainable Development Goals. Online KDD-21 workshop.
</li>

<li>Aug 19-26, <a href="https://ijcai-21.org/">IJCAI-21: 30th Int. Joint Conference on Artificial Intelligence</a>. Montreal-themed Virtual Reality, Online.
</li>""", "lxml")
dates = [x.text.split(',')[0] for x in soup.find_all('li')]
print(dates)

输出：

['Aug 14-18', 'Aug 19-26']

票数 1

查看全部 2 条回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68809053

复制

相似问题

问如何使用漂亮的汤从li标签中抓取日期？
EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用漂亮的汤从li标签中抓取日期？EN

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用漂亮的汤从li标签中抓取日期？
EN