研究中文文本相似度能解决很多NLP领域文本相关的问题

人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计学和数学等。

不同语言的自然语言处理也存在差别,对于中文来说,很多时候都无法直接套用英语自然语言处理中相对成熟的理论。有很多基础工作也是需要我们自己去做,这就包括了中文相似度。

相似度

中文相似度按照长度可以有字与字的相似度、单词与单词的相似度、句子与句子的相似度、段落与段落的相似度和文章与文章的相似度。

传统相似度的衡量计算一般可以使用编辑距离算法、余弦值法、SimHash法、n-gram法、汉明距离法、最长公共子串法、最长公共子序列法等等。

相似度计算方法总的可以归为两类,一类是基于统计的方法,一般用于句子段落这些较大粒度文本。另一类是基于语义的方法,一般用于词语或句子等较小粒度文本。

应用场景

中文相似度应用广泛, * 比如在信息检索中,信息检索系统中为了能召回更多与检索词语相似的结果,可以用相似度来识别相似的词语,以此提高召回率。 * 比如在自动问答中,自动问答与检索系统主要的不同的是自动问答可以使用自然语言交互,而检索系统一般是通过关键词进行搜索。而且响应也不同,自动问答给出一个准确唯一的答案作为响应,而检索系统的响应一般有很多相关的结果。相似度在这里可以用来计算用户以自然语言的提问问句与语料库中问题的匹配程度,那么匹配度最高的那个问题对应的答案将作为响应。 * 比如在机器翻译中,会分析语句的相似度来完成双语的翻译,能否准确定义并计算相似度将影响翻译的效果,最简单的相似性分析就是直接利用语句中每个词的语法和语义来分析,而如果要更进一步分析的话则是先分析语句的依存树,然后再计算相似度。 * 比如在自动文摘中,在提取文摘的过程中要利用相似度对语义相似的句子进行抽取。 * 比如NLP其他应用领域。

总结

从某种程度上来说,如果能定义一个较好的相似度计算方式,并且能有一个较好的准确性,那么基本就能解决很多NLP领域文本相关的问题。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏思影科技

《大话脑成像》系列之八——组水平标准化

2018已经到来,值此新春佳节之际,作为西南地区第一颜值担当的我继续为大家带来更加丰富多彩,干货满满的脑影像处理中的一些关键知识点讲解,并且不要19888...

3686
来自专栏专知

【ICML2018】Scikit-learn 作者之一可微分动态编程51页教程【附下载】

【导读】一年一度的国际机器学习会议( ICML ),于7月15日在瑞典斯德哥尔摩闭幕,其中一篇来自法国Inria Parietal,也是scikit-learn...

680
来自专栏人工智能头条

吴恩达团队发起骨骼X光片识别挑战赛,好胆你就来

1544
来自专栏机器之心

资源 | Style2paints:专业的AI漫画线稿自动上色工具

3324
来自专栏量子位

Mask R-CNN源代码终于来了,还有它背后的物体检测平台

夏乙 编译整理 量子位 出品 | 公众号 QbitAI “等代码吧。” 从Mask R-CNN论文亮相至今的10个月里,关于它的讨论几乎都会以这句话收尾。 ?...

43810
来自专栏量子位

史上最强GAN:训练费10万起,现在免费体验,画风鬼畜又逼真

9月底轰动业界的史上最强GAN,也就是最高动用512个TPU训练的BigGAN,Demo已经正式放出!

1383
来自专栏量子位

“深度学习已死,可微编程万岁!”LeCun老师为何又语出惊人?

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ? Deep Learning est mort. Vive Differentiable Progra...

3245
来自专栏人工智能快报

英特尔研究员展望人工智能与高性能计算的融合

高性能计算领域专业媒体HPCwire发表文章,介绍了英特尔研究人员对人工智能与高性能计算结合的技术展望。 将针对特定问题的深度神经网络扩展到具有数千个节点的大型...

2859
来自专栏大数据文摘

揭穿机器学习“皇帝的新装”

我们常把机器学习描述为一种使用数据模式标记事物的神奇技术。听起来艰涩,但事实上,拨开层层概念,机器学习的核心简单到令人尴尬。

994
来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

2636

扫码关注云+社区