前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >倒排索引

倒排索引

作者头像
98k
发布2018-04-23 14:39:02
9630
发布2018-04-23 14:39:02
举报
文章被收录于专栏:Django ScrapyDjango ScrapyDjango Scrapy

主楼搜索引擎的主流算法 倒排索引源于实际应用中需要根据属性的值来记录,这种只能怪索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录开确定属性值,而是由属性值来确定记录的位置,因而称之为倒排索引inverted index。带有倒排索引的文件我们称之为倒排索引文件,简称倒排文件inverted file

tf-idf概念

倒排索引待解决的问题 1 大小写转换的问题,如python PYTHON应该为一个词 2 题干抽取,looking和look应该处理成一个词 3 分词,若屏蔽系统应该分词为‘屏蔽’、‘系统’ 还是应该为‘屏蔽系统’ 4 倒排索引文件过大 - 压缩编码

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.04.14 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档