00:00
所以我们先要知道搜索引擎它是如何工作的,首先呢,我们有一个互联网啊,互联网上呢,肯定就是能够展示我们的网页,对不对啊,那么搜索引擎它的一个核心的啊,这样的一个机制呢,其实就是爬虫功能了啊好爬虫呢,它会在我们的这个互联网上呢去爬取网页,首先第一它得能爬取到这个网页,所以呢,我们啊要达到的目标呢,就是我们要做的这个网站呢,必须是对爬虫友好的,爬虫看着你想爬是不是啊好,然后呢,他才能把你爬到它的这个网页内容数据库上去,好,他把他爬取到的所有的网页的内容呢,都存储到他啊搜索引擎啊所在的一个同一个系统下面的一个网页内容数据库当中去,接下来呢,我们会有一个索引程序啊,这个索引程序呢,就有可能是啊,各种比如说solar啊,Elas search啊等等啊这种索引程序,这种索引程序呢,它会从我们。
01:00
网页内容数据库当中去获取我们的呃,这个网页内容数据,然后呢,通过这个索引程序呢,把网页内容数据呢,转换为索引啊,转换为索引,然后呢,在我们的这个啊用户。在我们的这个用户去打开百度去搜索我们的网站的时候,实际上他搜索的是什么?他搜索的是索引库中的内容,也就是说网页爬虫,它爬取互联网上的内容呢,爬到网页内容数据库当中,但是呢,用户打开网站搜索的时候,并不会直接搜索网页内容数据库,因为这个东西对搜索引擎来说不友好,我们要有一个对搜索引擎搜索友好的啊这样的一个程序,那就是索引程序而转化的这样的一个索引库了,那我们通过索引技术呢,来查找索引库是吧,因为索引库里面我们会知道里面有很多功能,包括分词呀,对吧?啊,然后包括呃,这个权重排名啊等等等等,都可以通过索引来实现啊好,然后呢,我们找到内容,最后呢,展示给用户,所以这个里面呢,有几个关键点,第一呢就是爬虫,它对什么友好,第二呢,就是索引程。
02:19
它要生成索引库对吧?这是两个关键点,那到这儿为止,我们能解决的一个问题,或者是说我们要解决的一个问题呢,就是从根本上解决,首先你做的这个网站必须得能够被爬虫爬进到网页内容数据库里面,才有后续的故事发生,如果你的网页内容都没有被爬到这个网页内容数据库当中,那么索引程序再厉害。你的索引库里面也没有你的网站是不是啊,所以我们要解决的根本的问题就是看一看爬虫的喜好是什么,我们做一个爬虫喜欢的网页啊,好,所以这块呢,就是我们所说的,嗯,搜索引擎的工作流程,那么就说一下爬虫喜欢什么样的网页呢?比如说爬虫呢喜欢的网页呢,就是rice风格的,所以现在我们在写应用程序的时候呢,就URL地址啊,都喜欢用rice风格,因为riceful风格呢,它是有规律可循的,爬虫呢,通过rice风格的网页呢,能够大致猜到你这个网页里面是什么内容,是主页啊,还是列表页啊,还是详情页啊,还是什么东西啊,所以爬虫呢,可以通过你的URL地址,大致能够给你的网页做什么呀,做这个分类了,好,然后接下来呢。
03:37
要注意这个网页当中的keyword呀,Description呀,Title的设置,我们来看一下我们学校的网站啊。好,稍微有点慢。
04:00
好,我们来看一下我们学校的网站,我们学校的这个网站呢,啊,这面有一个右键,然后我们看一下网页源代码,大家看这里面有title title叫上硅谷,然后古粉与老学员力挺的Java培训,大数据培训,前端培训,Pass培训,然后接下来呢,还有一个keywords keywords Java,北京Java web前端,前端大数据是吧,还有description Java什么玩意儿一大堆啊好,这都是干嘛的?有些同学说我我这这根本就看不全是吧,我浏览器上面的标题栏根本就没有那么长,你这个标题写这么长有什么用?再有就是下面这个keywords和description,写这一大堆东西有什么用?那么大家注意,这不是给我们人读的,是给谁读的,是给爬虫读的啊,爬虫喜欢这个爬虫爬我们网页的时候呢,那么他优先就会爬取这个title keywords和description的内容,他看到这个内容之后呢,首先把这部分的内容呢,就作为分词库里面的这个分词就给收录进去了,那么大家想,如果你的关键字在这个地方出现的比较多的话,那么是不是意味着你这个地方的出现的这个词汇这个量就会比较多呀,词汇出现的次数就会比较多呀,那么从而这一个词在我们的搜索引擎当中,它占的这个权重就比较大呀,啊,而且在这个位置啊,因为搜索引擎对这个位置的这个呃呃,就是文文字啊。
05:32
它本身就会赋予更高的权重啊,所以这块呢,就是为什么很多网站要写这样的一些关键字,所以那如果你想你的这个应用程序在搜索引擎当中的排名相对较高的话,那么一定要注意维护这几个关键字哈,这是第一,第二呢,就是搜索引擎呢,它还会对H1啊,H6啊,A标签啊等等啊,对这些特别友好,他会优先爬取这些,并且这些标签的权重也特别高,所以在咱们的网站当中啊,比如说像这种超链接,大家呢,就尽量用A标签来写,对吧,好像这种标题类的东西啊,大家呢,就尽量用呃,什么H1啊a h2h3呢啊这些东西来写,比如说像这种硅谷动态啊,这种都是标题是吧,就尽量用H标签来写,所以这样的话呢,就可以帮助我们提高搜索引擎的排名啊,然后另外呢,还有一个大家要注意的就是这个爬虫spider,爬虫的意思啊,也叫蜘蛛的意思啊,好,它对这个javascript。
06:32
支持不好啊,阿贾克斯获取的Jason数据无法被spider排去,什么意思?比如说就像类似于这种东西,这种东西我们如果是作为一个网站啊,发布到互联网上的话,那么这些东西大家都知道,它并不是在网页源代码当中体现的,你看网页源代码根本就没有,对吧?它是怎么体现的,它是通过我们的阿贾克斯程序,是不是阿贾克斯就是javascript嘛,是不是获取的Jason数据啊好,那么这个Jason数据是怎么渲染到页面当中的呢?它依然是通过javascript,然后呢,把这个Jason数据和我们页面当中的内容整合的,所以像这种东西,搜索引擎对他根本就不友好,或者是说他根本就不爬取这个内容,那像你在表格里出现的这些所有的内容,包括比如说系统设置啊,你你你你想通过查。
07:33
找一个叫做医生的这样的一个关键字来查到我们当前这个业绩是查不到的,因为医生这个东西呢,他根本就没有被爬虫爬取的,因为它是由javascript动态生成的,而不是从我们的服务器端直接渲染完毕直接返回的,它是渲返回的Jason数据,然后再。浏览器端动态渲染出来的,所以这个呢,我们就说,呃,我们做网站的时候,千万不能采用这种方案来做,如果采用这种方案来做,你的网站永远都不会被搜索引擎有效的收录啊,更不能排名考前明白哈,所以呢,这个就是我们所说的啊,搜索引擎的工作流程,以及我们蜘蛛程序或者是说爬虫程序啊,它的一个喜好啊。
我来说两句