首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python:报纸模块-使用html标签提取文本

Python:报纸模块-使用html标签提取文本
EN

Stack Overflow用户
提问于 2018-03-24 05:35:25
回答 2查看 549关注 0票数 0

我做了一个代码:

代码语言:javascript
复制
from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

但是我需要带html标签的文本,例如,我需要文本中的img标签。

EN

回答 2

Stack Overflow用户

发布于 2019-04-26 08:01:39

这个问题是一年前提出的,但有人可能会通过谷歌找到这个问题。

你可以使用"a.article_html“获取文章文本中的图片和其他html。

代码语言:javascript
复制
from newspaper import Article

a = Article('https://www.nytimes.com/2019/04/25/us/politics/joe-biden-anita-hill.html', 
    keep_article_html=True, 
    language='en')
a.download()
a.parse()

print(a.html) # This article's unchanged and raw HTML
print(a.article_html) # The HTML of this article's main node

记住参数"keep_article_html=True“

票数 1
EN

Stack Overflow用户

发布于 2018-04-01 18:41:44

您可以通过html成员获取html。

代码语言:javascript
复制
from newspaper import Article
url = 'http://www.infomoney.com.br/mercados/acoes-e-indices/noticia/7345670/dow-jones-tem-nova-derrocada-puxa-ibovespa-para-segunda-semana'
a = Article(url, language='pt')
a.download()
a.parse()
print(a.text)

html = a.html
print(html)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49458594

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档