首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >使用Python 3提取包含在带有版权符号的html标记中的文本

使用Python 3提取包含在带有版权符号的html标记中的文本
EN

Stack Overflow用户
提问于 2018-07-14 04:09:00
回答 3查看 311关注 0票数 -2

我需要检查网页是否有版权符号©,如果有,我提取包含该符号的标签的文本。例如,网页"profile.theguardian.com/signin“的目标文本是"©2018卫报新闻和媒体有限公司或其附属公司。保留所有权利”。如何使用Python 3.x完成此任务?

EN

回答 3

Stack Overflow用户

发布于 2018-07-15 06:49:14

我终于找到了我正在寻找的解决方案;

代码语言:javascript
复制
URL = 'https://profile.theguardian.com/signin'
webpage = requests.get(URL)
soup = BeautifulSoup(webpage.content,'html.parser')
symbol = u'\N{COPYRIGHT SIGN}'.encode('utf-8')
symbol = symbol.decode('utf-8')
pattern = r'' + symbol
for tag in soup.findAll(text=re.compile(pattern)):
        copyrightTexts = tag.parent.text
        print(copyrightTexts)

希望这能对其他人有所帮助。感谢那些试图提供帮助的人。

票数 2
EN

Stack Overflow用户

发布于 2018-07-14 04:26:49

您好,您应该在提交问题时发布您的示例代码,但下面的代码应该会告诉您版权符号是否在特定页面上:

代码语言:javascript
复制
from bs4 import BeautifulSoup
import urllib.request


masterURL = 'https://profile.theguardian.com/signin'

sauce = urllib.request.urlopen(masterURL).read()
soup = BeautifulSoup(sauce,'lxml')
temp = soup.prettify().encode('UTF-8')

#\xc2\xa9 is unicode symbol for copyright sign

if(b'\xc2\xa9' in temp):
     print('Copy Right On Page')
else:
     print('No Copy Right on Page')
票数 0
EN

Stack Overflow用户

发布于 2018-07-14 07:13:36

将其作为footer_copyright,您可以这样做:

代码语言:javascript
复制
from bs4 import BeautifulSoup
import urllib.request as url
BeautifulSoup(url.urlopen(masterURL).read()).select("p.footer__copyright")
票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51332185

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档