首页
学习
活动
专区
工具
TVP
发布

山行AI

山行AI(原开发架构二三事),后续专注于AI应用领域
专栏作者
290
文章
633189
阅读量
56
订阅数
spark 之TF-IDF提取文章关键词
提取一篇文章中的关键词时,一个很常见的思路就是找到出现次数最多的词。但是很多时候一些副词、形容词,英文中的a the an on等,中文里的 的、是、在等在文档中出现的词数会比较多,但是并不是关键词,没有实际意义,所以这些被列入停用词范畴。下面咱们就来探索一下使用spark的ml-lib来提取文章的关键 词以及在寻找关键词过程中出现的一些概念说明。 对于下面这样一篇金融类的文章(由于篇幅有限,只截取部分):
山行AI
2019-06-28
1.6K0
深入搜索之结构化搜索
结构化搜索是指针对具有内在结构的数据进行检索的过程。比如日期、时间和数字都是结构化的,它们有精确的格式。文本也是可以 格式化的,比如彩色笔的颜色可以有red、green、blue等,文章也可以有关键词,网站商品也都有id等唯一标识。 结构化查询的结果总是非是即否,要么存在结果集中,要么不在。不关心文件的相关度或评分,只有文档的包括或排除处理。
山行AI
2019-06-28
2.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档