目前,我使用YQL使用xpath提取Wikipedia的内容。
我目前使用的xpath表达式是\\p
.This表达式,它选择所有段节点,去掉所有子节点,如<a>
、<sup>
、<strong>
等。
正因为如此,我得到了维基百科足球页面的输出,如下所示。链接在这里
在此输出中,删除链接。
来自维基百科,免费的百科全书 .For其他用途,请参阅 或者足球,足球,,和.Some的许多不同的比赛被称为足球。从左上角到右下角: 所有涉及,在不同程度上,一个球与脚得分a。在世界范围内最受欢迎的运动是,通常被称为“足球”或“足球”。不合格的,该词适用于任何形式的足球是最受欢迎的地区背景下出现,包括,,,和其他相关的游戏。足球的这些变体被称为足球的“密码”。.....................and more
预期产出
来自维基百科,免费的百科全书 有关其他用途,请参见足球(消歧)。 一些不同的比赛被称为足球。从左上角到右下角:Association足球或足球、澳大利亚规则足球、International rules 、橄榄球联盟、橄榄球联盟
E 219
和E 120
美式足球E 221
。 足球在不同程度上都涉及到用脚踢来进球。在世界范围内最受欢迎的运动是联合足球,通常被称为“足球”或“足球”。不合格的足球一词适用于在该词出现的地区范围内最受欢迎的任何一种足球形式,包括美国足球、澳大利亚规则足球、加拿大足球、Gaelic足球、橄榄球联盟、橄榄球联盟1以及其他相关比赛。足球的这些变体被称为足球的“密码”。
(更大胆的词是有链接的)
那么如何提取段落及其子节点呢??我对xpath不熟悉。
发布于 2012-01-25 18:35:37
正确的答案是//p/descendant-or-self::*
,以便有父节点和子节点。
https://stackoverflow.com/questions/9008121
复制相似问题