当我试图从html网页中抓取日期时,我想忽略任何字符,直到一个数字字符。示例代码:
<div id="example">example text 4 December 2013</div>因此,我只想获取日期“2013年12月4日",忽略文本的第一部分”示例文本“,以便在发现数字时有效地开始解析。
此字符串开头的文本和单词的长度未知且大小可能不同,日期将始终采用此格式并位于标记的末尾。
非常感谢您的帮助。
发布于 2013-12-07 18:03:08
使用Xpath,您可以将数据划分为两个标记,如示例文本2013年12月4日
现在,您可以使用Xpath表达式"//NumericData“获取数值数据。
否则,只需选取整个数据,然后使用简单的字符串操作类对其进行解析。
https://stackoverflow.com/questions/20439724
复制相似问题