腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

山行AI

山行AI（原开发架构二三事），后续专注于AI应用领域

专栏作者

291

文章

643662

阅读量

56

订阅数

spark 之TF-IDF提取文章关键词

spark 数据挖掘编程算法区块链比特币

提取一篇文章中的关键词时，一个很常见的思路就是找到出现次数最多的词。但是很多时候一些副词、形容词，英文中的a the an on等，中文里的的、是、在等在文档中出现的词数会比较多，但是并不是关键词，没有实际意义，所以这些被列入停用词范畴。下面咱们就来探索一下使用spark的ml-lib来提取文章的关键词以及在寻找关键词过程中出现的一些概念说明。对于下面这样一篇金融类的文章(由于篇幅有限，只截取部分)：

2019-06-28

1.6K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态