温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
刚才我们给大家讲了一下TF的计算公式,它表述的是我们查询的这个关键词啊,在我们整个的文档当中,它的关键程度以及它的重要程度,对吧?但是呢,我们现在还想看一看我们的这个关键词在整个的查询文档当中,就所有的查询结果当中,它是否重要,这样的话就涉及到我们的这个叫IDF公式了。这个公式呢,它的这个公式还是比较简单的,我们直接拷贝过来,所以说比较简单的是因为它只需要两个参数就可以了,一个大N,一个小N,那么这个大N呢,它是说了大N表述的是我们的文档当中字段的总的数量。其实说的简单点,就是我们当前我们的字段,记住啊,这个地方比较特殊,我们查询的时候是有一个字段名和一个关键词的,这个叫text,它就问你我们查询的当中,我们有几个这种匹配的字段,那么这是一个,这是一个对不对?哎,所以我们是二,这个地方我们的取值应该就是二。
01:03
所以它应该是我们的二好了,然后呢,我们接着再往下,往下以后他说了,我们的小N呢,是我们文档当中所包含的关键词的数量,那么不用说了,这是关键,这是关键词,这是关键词不也是二吗?所以我们这里呢,它就变成了二,它就变成了二,那么我们可以算一下,我们二减二是零,0.5除以2.5,那不就是0.2嘛,所以我们合在一块,这个计算结果应该是1.2,哎,就是这样的。它求1.2的对数是这样比较特殊,这个我们的log呢,它的对数的什么是那个我们的E啊,它是那个E,所以呢,我们计算的时候,我们这里呢,应该是1.2,我们应该选择它,所以我们点击它,点击之后它的结果是0.182321,所以呢,我们回过头来看一下,这个应该是对的,18232156对吧?哎,这个应该没问题。所以啊,这就是我们的一个逆文档频率的公式,表述了我们查询的关键词在整个查询结果中它的重要程度。哎,这是我们所谓的IDF。
我来说两句