忽略下面的文本段落
XML code是万维网联盟(W3C)的正式推荐标准,类似于超文本标记语言(HTML)。XML和HTML都包含用于描述页面或文件内容的标记符号。HTML代码仅根据网页的显示和交互方式来描述网页内容(主要是文本和图形图像)。
XML数据被称为自描述或自定义,这意味着数据的结构嵌入到数据中,因此当数据到达时,不需要预先构建结构来存储数据;它在XML中是动态理解的。希望以一致的方式共享信息的任何个人或个人或公司都可以使用XML格式。XML实际上是标准通用标记语言(SGML)的一个更简单、更易于使用的子集,SGML是创建文档结构的标准。
因此,我使用了下面的代码来提取所有5个字段。
import requests
from bs4 import BeautifulSoup
import lxml
soup = BeautifulSoup(contents,'lxml')
a=[v.get_text() for v in soup.select('cia')]
v=[v.get_text() for v in soup.select('civ')]
p=[v.get_text() for v in soup.select('cip')]
y=[v.get_text() for v in soup.select('ciy')]
t=[v.get_text() for v in soup.select('cit')]
print (a)
print (v)
print (p)
print (y)
print (t)
https://stackoverflow.com/questions/51660134
复制相似问题