研究中文文本相似度能解决很多NLP领域文本相关的问题

人与计算机的交互过程中,如果能提供人类的自然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就需要自然语言处理来处理,一般来说自然语言处理会涉及几个学科:计算机科学、语言学、统计学和数学等。

不同语言的自然语言处理也存在差别,对于中文来说,很多时候都无法直接套用英语自然语言处理中相对成熟的理论。有很多基础工作也是需要我们自己去做,这就包括了中文相似度。

相似度

中文相似度按照长度可以有字与字的相似度、单词与单词的相似度、句子与句子的相似度、段落与段落的相似度和文章与文章的相似度。

传统相似度的衡量计算一般可以使用编辑距离算法、余弦值法、SimHash法、n-gram法、汉明距离法、最长公共子串法、最长公共子序列法等等。

相似度计算方法总的可以归为两类,一类是基于统计的方法,一般用于句子段落这些较大粒度文本。另一类是基于语义的方法,一般用于词语或句子等较小粒度文本。

应用场景

中文相似度应用广泛, * 比如在信息检索中,信息检索系统中为了能召回更多与检索词语相似的结果,可以用相似度来识别相似的词语,以此提高召回率。 * 比如在自动问答中,自动问答与检索系统主要的不同的是自动问答可以使用自然语言交互,而检索系统一般是通过关键词进行搜索。而且响应也不同,自动问答给出一个准确唯一的答案作为响应,而检索系统的响应一般有很多相关的结果。相似度在这里可以用来计算用户以自然语言的提问问句与语料库中问题的匹配程度,那么匹配度最高的那个问题对应的答案将作为响应。 * 比如在机器翻译中,会分析语句的相似度来完成双语的翻译,能否准确定义并计算相似度将影响翻译的效果,最简单的相似性分析就是直接利用语句中每个词的语法和语义来分析,而如果要更进一步分析的话则是先分析语句的依存树,然后再计算相似度。 * 比如在自动文摘中,在提取文摘的过程中要利用相似度对语义相似的句子进行抽取。 * 比如NLP其他应用领域。

总结

从某种程度上来说,如果能定义一个较好的相似度计算方式,并且能有一个较好的准确性,那么基本就能解决很多NLP领域文本相关的问题。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(04-06讲)

【导读】前些日子,大家都知道,Google 上线了基于 TensorFlow 的机器学习速成课程,它包含 40 多项练习、25 节课程以及 15 个小时的紧凑学...

38311
来自专栏智能算法

Yoshua Bengio等大神传授:26条深度学习经验

原文地址:http://www.marekrei.com/blog/26-things-i-learned-in-the-deep-learning-summe...

3486
来自专栏企鹅号快讯

【MachineLN之三要素】

开篇废话: 机器学习解决的问题和李航老师统计学习方法所描述的统计学问题不谋而合。李航定义为统计学习三要素:方法=模型+策略+算法。这不光是统计学习必经之路,这也...

1807
来自专栏AI科技评论

科普|机器学习中决策树的原理与算法

AI科技评论按:本文作者栗向滨,中科院自动化所复杂系统国家重点实验室研究生毕业,机器学习与计算机视觉方向算法工程师。雷锋网首发文章。 我们知道,在机器学习中有两...

3456
来自专栏企鹅号快讯

GitHub新开放项目FoolNLTK:一个便捷的中文处理工具包

机器之心报道 作者:蒋思源 近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包,该工具不仅可以实现分词、词性标注和命...

1918
来自专栏机器之心

学习了!谷歌今日上线基于TensorFlow的机器学习速成课程(中文版)

机器之心整理 参与:思源、许迪 随着机器学习越来越受到公众的关注,很多初学者希望能快速了解机器学习及前沿技术。而今天谷歌上线了基于 TensorFlow 的机...

2706
来自专栏机器之心

开源 | 通过提取神经元知识实现人脸模型压缩:MobileID可在移动设备上快速运行

选自GitHub 机器之心编译 参与:panda 深度神经网络模型对计算资源的需求问题一直是相关研究和应用的关注焦点之一。研究者们一直在努力试图将神经网络模型部...

2728
来自专栏智能算法

10 种机器学习算法的要点(附 Python 和 R 代码)

本文由 伯乐在线 - Agatha 翻译,唐尤华 校稿。 英文出处:SUNIL RAY。欢迎加入翻译组。 前言 谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和...

3335
来自专栏数据猿

投稿 | 机器如何理解语言—中文分词技术

前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义...

3063
来自专栏专知

基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享02(附pdf下载)

【导读】上一次专知推出基于信息理论的机器学习报告,大家反响热烈,今天是胡老师提供的第二部分(为第三章内容)进行详细地注释说明,请大家查看! ▌概述 ---- 本...

3309

扫码关注云+社区