首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >从网页中删除HTML并计算单词频率?

从网页中删除HTML并计算单词频率?
EN

Stack Overflow用户
提问于 2019-04-15 23:36:37
回答 2查看 0关注 0票数 0

在Groovy中,如何抓取网页并删除HTML标签等,只留下文档的文本?我希望将结果转储到一个集合中,这样我就可以构建一个单词频率计数器。

最后,让我再次提一下,我想在Groovy中这样做。

EN

回答 2

Stack Overflow用户

发布于 2019-04-16 08:24:01

假设您希望使用Groovy(基于groovy标记进行猜测),您的方法可能是面向shell的脚本或使用Java库。在shell脚本的情况下我会同意moogs,使用Lynx或Elinks可能是最简单的方法。否则,请查看HTMLParser并查看处理文件中的每个单词(向下滚动以查找相关的代码段)

您可能一直在寻找与Groovy一起使用的Java库来进行HTML解析,因为它似乎没有任何Groovy库。如果你没有使用Groovy,那么请发布所需的语言,因为那里有大量的HTML到文本工具,具体取决于你正在使用的语言。

票数 0
EN

Stack Overflow用户

发布于 2019-04-16 09:32:29

如果你想从HTML中获取一组标记化的单词,那么你不能像XML一样解析它(需要是有效的XML)并获取标签之间的所有文本吗?

代码语言:javascript
复制
def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/-100001107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档