首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搜索引擎原理—内容处理

内容处理就是搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

1.要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子页进行判断,然后与针对性的进行内容处理。

2.提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过实际测试,至少百度多多少少还是会参考Keywords标签的。

3.去除页面噪声

其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了。所以搜索引擎的去除噪声,并不是很严格。因此SEO人员对于网页主题内容外的推荐内容、链接、链接描文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是真正重视这些细节的站长和SEO人员并不多。

4.去除内容中的停止词

接下来应该是对剩余文本内容的分词处理,然后搜索引擎会剔除掉诸如 “得” “的” “啊” “地” “呀” 之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这些词也是有比较丰富的搜索结果,如下图所示:

当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响。

所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格的去除的,也是要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此外对SEO人员并没有太多影响,所以不必深究。

经过这些处理后,spider抓取回来的网页内容就被“洗”干净了,再经过分词处理以及去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。@向宇峰

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191205A0A7LE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券