很多的词语都具有不止一个意思,在不同的语境下往往有不同的含义,也就是所谓的语义歧义。而语义消歧就是为了解决这样的问题。
语义消歧的常用方式
为什么标注好的语料非常昂贵? 或许是因为基础的语料库做起来需要大量的人力,就像机器学习、人工智能这些东西,其实底层上都是大量的人工,但在宣传的时候,往往只能看到智能,不见人工,这可能是各大厂商刻意为之。写到这里,是不是觉得结构化的数据十分珍贵了呢?
需要明确指出的是,无监督消歧并不是没有一点人工的干预。无监督依然需要部分监督数据(人工标注的数据)来完成。
语义,应该就是能够反映事物内在含义的信息的语言化表达,所以语义的本质其实应该是信息。
过年前后,事情变得很多,本来的读书计划也被打乱了,还好这个周末有一点时间,可以坐下来写点东西。