问从网页中删除HTML并计算单词频率？
EN

Stack Overflow用户

提问于 2019-04-15 23:36:37

回答 2查看 0关注 0票数 0

在Groovy中，如何抓取网页并删除HTML标签等，只留下文档的文本？我希望将结果转储到一个集合中，这样我就可以构建一个单词频率计数器。

最后，让我再次提一下，我想在Groovy中这样做。

回答 2

Stack Overflow用户

发布于 2019-04-16 08:24:01

假设您希望使用Groovy（基于groovy标记进行猜测），您的方法可能是面向shell的脚本或使用Java库。在shell脚本的情况下我会同意moogs，使用Lynx或Elinks可能是最简单的方法。否则，请查看HTMLParser并查看处理文件中的每个单词（向下滚动以查找相关的代码段）

您可能一直在寻找与Groovy一起使用的Java库来进行HTML解析，因为它似乎没有任何Groovy库。如果你没有使用Groovy，那么请发布所需的语言，因为那里有大量的HTML到文本工具，具体取决于你正在使用的语言。

票数 0

Stack Overflow用户

发布于 2019-04-16 09:32:29

如果你想从HTML中获取一组标记化的单词，那么你不能像XML一样解析它（需要是有效的XML）并获取标签之间的所有文本吗？

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/-100001107

复制

相似问题

问从网页中删除HTML并计算单词频率？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页中删除HTML并计算单词频率？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从网页中删除HTML并计算单词频率？
EN