首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

算法-分词技术

索引库建立

分词

索引库建立

搜索引擎的资料库

搜索引擎提前将它认为重要的页面信息下载好,放在数据库中,这个供用户查询相关结果的数据库就是搜索引擎的资料库。

不同搜索引擎的数据库也是不一样的,一般是几十到 100 亿个网页左右。

索引库

搜索引擎的本职工作

我们在搜索一个关键词的时候,搜索引擎要在浩瀚的网页世界给我们找到我们需要的网页。

搜索引擎为什么那么快?

因为搜索引擎对网页进行了分类处理。

这个经过分类的页面信息资料库就是索引库。

索引库的分类和建立

不论是中文还是英文,词语的总数是不变的(中文词语不到 10万,英文大概 100 万左右单词)。

如果按每个词 100亿个网页 / 10万个词语 = 每个类别 10万个网页。

所以,如果我们要搜索某个关键词的时候,只需要在 10 万个网页里去找即可。

分词

分词技术

想要建立索引库,就必须把页面上的文字进行拆分,然后把分好的词一个一个放到索引库中去,搜索引擎的这项技术就叫分词技术

分词技术的流程

提取原代码 - 把关键词与 URL 对应储存

分词技术对 SEO 的意义

长尾词可以带动相关近义词的权重。

如果 “网上如何赚钱” 这个词被优化到了百度第一,那么 “如何赚钱”、“网赚” 这样的词也会有很好的权重(即使他们并没有完全匹配)。

单字无法带动其他词的权重。

所以,在写页面内容,尤其是写网页 title 的时候要注意搜索引擎的这项技术。

第一阶段

名词解释

域名

服务器

网站程序

SEO 基础

SEO 应用

第二阶段

SEO 模型

排名

建站

内容

外链

心态

程序

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180909A00BEF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券