首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

手把手:自然语言处理太难?按这个套路走,就是砍瓜切菜!(附Python代码)

大数据文摘作品 编译:小饭盆、周佳玉、笪洁琼、钱天培 豆瓣水军检测、《权游》续写、越来越神的谷歌翻译...... 最近自然语言处理(NLP)的各路应用可是被玩得风生水起。 这些NLP应用看起来炫酷到没道理,但其实背后的原理并不难理解。 今天,文摘菌就来扒一扒最常用的自然语言处理技巧和模型,手把手教你做一个简单神奇的小应用。 不吹不黑,90%的NLP问题都能用类似方法解决。 今天这个教程从数据处理的三大阶段教你自然语言处理: 收集,准备、检查数据 建立简单的模型(包括深度学习模型) 解释、理解你的模型 整篇

02

阿尔伯塔大学博士毕业论文:基于图结构的自然语言处理

这篇博士论文将自然语言处理和文本挖掘的多个核心任务与图结构的强大表示能力结合起来,从而充分利用深度学习的表示能力和文本中的结构信息来解决诸多问题:(1)组织信息(Information Organization):提出了基于树/图结构的短文本/长文本对的分解算法以提高语意匹配任务(semantic matching)。基于文本匹配,进一步提出事件粒度的新闻聚类和组织系统 Story Forest;(2)推荐信息(Information Recommendation):提出了 ConcepT 概念挖掘系统以及 GIANT 系统,用于构建建模用户兴趣点以及长短文本主题的图谱(Ontology)。构建的兴趣图谱 Attention Ontology 有助于对用户与文本的理解,并显著提高推荐系统的效果;(3)理解信息(Information Comprehension):提出了 ACS-Aware Question Generation 系统,用于从无标注的文本中生成高质量的问答对,大大降低问答系统的数据集构建成本,并有助于提高阅读理解系统的效果。

02

一周论文 | 基于知识图谱的问答系统关键技术研究#4

作者丨崔万云 学校丨复旦大学博士 研究方向丨问答系统,知识图谱 领域问答的基础在于领域知识图谱。对于特定领域,其高质量、结构化的知识往往是不存在,或者是极少的。本章希望从一般文本描述中抽取富含知识的句子,并将其结构化,作为问答系统的知识源。特别的,对于不同的领域,其“知识”的含义是不一样的。有些数据对于某一领域是关键知识,而对于另一领域则可能毫无意义。传统的知识提取方法没有考虑具体领域特征。 本章提出了领域相关的富含知识的句子提取方法,DAKSE。DAKSE 从领域问答语料库和特定领域的纯文本文档中学习富

08

KG4Py:Python代码知识图谱和语义搜索的工具包

现在的项目程序中存在着大量重复的代码片段,尤其是在软件开发的时候。在本文中,我们提出了一个工具包(KG4Py),用于在GitHub存储库中生成Python文件的知识图谱,并使用知识图谱进行语义搜索。在KG4Py中,我们删除了31.7万个Python文件中的所有重复文件,并通过使用具体语法树(CST)构建Python函数的代码知识图谱来执行这些文件的静态代码分析。我们将预先训练的模型与无监督模型集成后生成新模型,并将该新模型与代码知识图谱相结合,方便搜索具有自然语言描述的代码片段。实验结果表明,KG4Py在代码知识图谱的构建和代码片段的语义搜索方面都取得了良好的性能。

04

KG4Py:Python代码知识图谱和语义搜索的工具包

现在的项目程序中存在着大量重复的代码片段,尤其是在软件开发的时候。在本文中,我们提出了一个工具包(KG4Py),用于在GitHub存储库中生成Python文件的知识图谱,并使用知识图谱进行语义搜索。在KG4Py中,我们删除了31.7万个Python文件中的所有重复文件,并通过使用具体语法树(CST)构建Python函数的代码知识图谱来执行这些文件的静态代码分析。我们将预先训练的模型与无监督模型集成后生成新模型,并将该新模型与代码知识图谱相结合,方便搜索具有自然语言描述的代码片段。实验结果表明,KG4Py在代码知识图谱的构建和代码片段的语义搜索方面都取得了良好的性能。

03
领券