文章/答案/技术大牛

发布

社区首页 >问答首页 >Python:报纸模块-使用html标签提取文本

问Python:报纸模块-使用html标签提取文本
EN

Stack Overflow用户

提问于 2018-03-24 05:35:25

回答 2查看 549关注 0票数 0

我做了一个代码：

from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

但是我需要带html标签的文本，例如，我需要文本中的img标签。

python

python-3.x

python-newspaper

回答 2

Stack Overflow用户

发布于 2019-04-26 08:01:39

这个问题是一年前提出的，但有人可能会通过谷歌找到这个问题。

你可以使用"a.article_html“获取文章文本中的图片和其他html。

from newspaper import Article

a = Article('https://www.nytimes.com/2019/04/25/us/politics/joe-biden-anita-hill.html', 
    keep_article_html=True, 
    language='en')
a.download()
a.parse()

print(a.html) # This article's unchanged and raw HTML
print(a.article_html) # The HTML of this article's main node

记住参数"keep_article_html=True“

票数 1

Stack Overflow用户

发布于 2018-04-01 18:41:44

您可以通过html成员获取html。

from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

html = a.html
print(html)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49458594

复制

相似问题

问Python:报纸模块-使用html标签提取文本
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python:报纸模块-使用html标签提取文本EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python:报纸模块-使用html标签提取文本
EN