我正在尝试提取HTML标记中包含的文本,以便构建一个python defaultdict。要做到这一点,我需要清除所有xpath和/或HTML数据,并只获取文本,这是我可以用/text()完成的,除非它是一个href。"):<Selector xpath='//*[self::h3 or self::p or self::
使用xpath子字符串提取html标记中的日期
我尝试在xpath中使用子字符串。<span id="latestReplyLine"><a href="#comment-965609" class="lastScroll js-latest-reply">Latest reply</a> on May 22, 2019 by John Stolt