现在,我能够获取某个元素"root“的直接子元素,并且这些元素的名称包含破折号。例如,假设这些直接子对象的名称为'A4-1‘、'B3-2’和'C4-3‘。那样做一些事情: print out it's child element figtitle/autonum/@ID
有没有一种方法可以在不将路径连接成字符串的情况下完成类似
我有一个urls列表(unicode),有很多重复的地方。我的第一个想法是检查元素的子字符串是否在列表中,如下所示: if url[:30] not in list:但是,由于没有与url[:30]完全匹配的元素,它试图将文字url[:30]映射到一个列表元素,显然会返回所有这些元素。编辑:
urls中的主机和
我有一个包含许多元素的列表,这些元素是我使用Beautiful Soup从html页面中提取出来的。在这个列表中,我有许多具有相同子字符串的元素,我想提取包含该子字符串的每个元素。(and so on) ...并且我想删除包含字符串"(page I not exist)“的元素。
有没有想过我该怎么做?