首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然语言处理(NLP)相关

Java) SnowNLP (Python) Python library for processing Chinese text YaYaNLP (Python) 纯python编写的中文自然语言处理包...Segmentation Genius 中文分词 (Python) Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法...使用TensorFlow实现的Sequence to Sequence的聊天机器人模型 (Python) 使用深度学习算法实现的中文阅读理解问答系统 (Python) DuReader中文阅读理解...中文数据预处理材料 中文分词词典和中文停用词 漢語拆字字典 Organizations 相关中文NLP组织和会议 中国中文信息学会 NLP Conference Calender Main...Martin 52nlp 我爱自然语言处理 hankcs 码农场 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算

2.2K80

自然语言处理(一)】相关基础技能

1.python字符串相关操作 s1 = " hello " s2 = " world!...3.jieba中文处理 import jieba #全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; seg_list= jieba.cut("我爱学习自然语言处理",cut_all...=False) print("Full Mode:"+"/".join(seg_list)) #精确模式,如不指定,默认是这个模式,适合文本分析; seg_list= jieba.cut("我爱学习自然语言处理...jieba.prosseg.dt默认词性标注分词器; 标注句子分词后每个词的词性,采用和ictclas兼容的标记法; from jieba import posseg text = "我爱自然语言处理"...在windows环境下会报错,由于没有Linux系统就不试了 (5)Tokenize:返回词语在原文的起止位置 import jieba #默认模式 result=jieba.tokenize(u'自然语言处理有用

41320
您找到你想要的搜索结果了吗?
是的
没有找到

医学自然语言处理相关资源整理

此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。...chip2019会议详情见链接:http://cips-chip.org.cn/evaluation 迁移学习是自然语言处理中的重要一环,其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果...231776/information 中文医学知识图谱 CMeKG 地址 http://cmekg.pcl.ac.cn/ 简介:CMeKG(Chinese Medical Knowledge Graph)是利用自然语言处理与文本挖掘技术...论文地址 https://www.nature.com/articles/s41591-018-0335-9 论文概要:该文章由广州市妇女儿童医疗中心与依图医疗等企业和科研机构共同完成,基于机器学习的自然语言处理...据介绍,这是全球首次在顶级医学杂志发表有关自然语言处理(NLP)技术基于电子健康记录(EHR)做临床智能诊断的研究成果,也是利用人工智能技术诊断儿科疾病的重磅科研成果。

1.1K10

【深度学习】⑤--自然语言处理相关应用

自然语言处理(NLP)的常见任务 先来看看在工业界对于自然语言处理的一些常见需求与任务。 自动摘要 这个在搜索引擎中非常常用。指计算机能自动去阅读一篇文章然后去提取这篇文章的摘要。...比如输入1000篇文章,通过某种算法可以知道有100篇文章是在讲同一个主题--“体育”。...传统的NLP处理方法是基于规则的 现代的处理方法更倾向与统计机器学习,比如HMM,CRF,SVM.LDA,CNN等,”规则“是隐含在模型参数里的。 2....要将自然语言的问题来运用机器学习或深度学习的模型来解决的话,就必须要将这些计算机本身不认识的“词”转化为“数字”,即通过“向量”的形式来表示。如此一来,我们就可以通过对向量的各种统计运算来解决问题了。...通过文档的向量我们可以运用TF-IDF算法去求取每个词在文档中的重要程度。 TF值--> 求每个文档中的各个词出现的频数,频数越大则说明这个词在该篇文档中的重要性越大。

83180

Awesome-Chinese-NLP:中文自然语言处理相关资料

推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达: https://github.com...awesome-chinese-nlp A curated list of resources for NLP (Natural Language Processing) for Chinese 中文自然语言处理相关资料...中科院计算所自然语言处理研究组 哈工大智能技术与自然语言处理实验室 复旦大学自然语言处理组 苏州大学自然语言处理组 南京大学自然语言处理研究组 东北大学自然语言处理实验室 厦门大学智能科学与技术系自然语言处理实验室...郑州大学自然语言处理实验室 微软亚洲研究院自然语言处理 华为诺亚方舟实验室 CUHK Text Mining Group PolyU Social Media Mining Group HKUST Human...Martin 52nlp 我爱自然语言处理 hankcs 码农场 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算

5.5K12

某公司自然语言处理算法笔试题

1 请列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF 2 简述几种自然语言处理开源工具包 答:LingPipe、FudanNLP、OpenNLP、CRF++、Standord...CoreNLP、IKAnalyzer 3 简述无监督和有监督算法的区别 答: (1)有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。...PS:部分带标记的是半监督学习 (3)训练集有输入有输出是有监督,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means...、PCA、 GMM等 4 请简述几种熟悉的分类算法 答:kNN,kMeans,决策树,随机森林等 5 以下代码是Java实现中文分词,请简述分词过程 public class SplitChineseCharacter

70370

算法集锦(17)|自然语言处理| 比特币市场情绪分析算法

具体的,我们可以使用像TextBlob这样的Python NLP(自然语言处理库)来评估语句是正面的还是负面的。...总的来说,本算法主要有两个流程: 获取微博信息 将微博信息作为字符串输入TextBlob,并估算其极性 ?...算法基本内容 在此,我们并不重点分析市场的情绪如何,而是讨论的是如何收集和分析我们的数据。...使用BeautifulSoup库可以很容易地对这些信息进行处理。...以上是本算法的基本内容,你可以参考本算法去评估更多的市场行为。 对于本算法的优化,可行的方向有:使用机器学习模型来细化极性输出或者使用极性作为其他机器学习模型的输入,等等。

1.3K10

非主流自然语言处理——遗忘算法系列(一):算法概述

一、前言 这里“遗忘”不是笔误,这个系列要讲的“遗忘算法”,是以牛顿冷却公式模拟遗忘为基础、用于自然语言处理(NLP)的一类方法的统称,而不是大名鼎鼎的“遗传算法”!   ...在“遗忘”这条非主流自然语言处理路上,不知不觉已经摸索了三年有余,遗忘算法也算略成体系,虽然仍觉时机未到,还是决定先停一下,将脑中所积梳理成文,交由NLP的同好们点评交流。...在自然语言处理中,很多对象比如:词、词与词的关联、模板等,都具备按相对稳定重现的特征,因此非常适用遗忘来处理。 三、牛顿冷却公式   那么,我们用什么来模拟遗忘呢?   ...有次在阮一峰老师的博客上看关于帖子热度排行的算法时,其中一种方法使用的是牛顿冷却定律,遗忘与冷却有着相似的过程、简洁优美的函数形式、而且参数只与时间相关,这些都让我本能想到,它就是我想要的“遗忘公式”。...四、已经实现的功能 如果把自然语言处理比作从矿砂中淘金子,那么业界主流算法的方向是从矿砂中将金砂挑出来,而遗忘算法的方向则是将砂石筛出去,虽然殊途但同归,所处理的任务也都是主流中所常见。

1.8K120

ISP图像处理之Demosaic算法相关

ISP图像处理之Demosaic算法相关 CFA及Demosaic介绍 1.Bayer(拜耳滤波器得到彩色) 图像在将实际的景物转换为图像数据时, 通常是将传感器分别接收红、 绿、 蓝三个分量的信息,...(光线透过镜头然后通过颜色分离片分离 R G B信息,示意图来自《颜色插值算法改进及其电路设计》) 通过在黑白 cmos 图像传感器的基础上, 增加彩色滤波结构和彩色信息处理模块就可以获得图像的彩色信息..., 再对该彩色信息进行处理, 就可以获得色彩逼真的彩色图像。...根据同样的原理,我们可以对Bayer图像中的每一个点都进行插值,然后得到插值结果: 颜色相关性原理(色差恒定理论) 色差恒定准则与色比恒定准则都是基于颜色通道之间的相关性,目的都是把颜色通道之间的相关性信息引入颜色插值算法...双线性插值忽视了各通道间的相关性,插值结果往往带有比较严重的伪彩色。

2K20

Python NLTK自然语言处理:词干、词形与MaxMatch算法

CSDN:白马负金羁 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。...目前市面上可以参考的在Python下进行自然语言处理的书籍是由Steven Bird、Ewan Klein、Edward Loper编写的《Python 自然语言处理》。...Python自然语言处理:词干、词形与MaxMatch算法 自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization,二者非常类似。...3、最大匹配算法(MaxMatch) MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法)。...以上便是我们对NLTK这个自然语言处理工具包的初步探索,最后,我想说《Python 自然语言处理》仍然是当前非常值得推荐的一本讲述利用NLTK和Python进行自然语言处理技术的非常值得推荐的书籍。

2K50

自然语言处理自然语言处理与人工智能

这是我们真正搞自然语言理解,搞自然语言处理的人必须面对的问题。我们说要善解人意,人意在哪?它藏在符号怪阵的背后。我们来看这张图: ?...不仅很多和自然语言相关的大型的项目里面语言学家的参与度很不够,就连谷歌的诺维格和语言学家乔姆斯基之间的争论也是很不友好的,语言学里面有很多宝贝,但是外面的人不认识,认识不到。...那为什么自然语言处理还能这么火呢,我认为这里面一个原因是他们还在吃我所说的“规模红利”。...但是,大家要解决、要共同面对的问题难点是明确的:一个是递归嵌套的深度,一个是语言成分远距离相关的宽度。相关成分相距越远、递归嵌套层数越深,浅层模型越难处理。...虽然我是这样的题目,结论是自然语言处理和人工智能并没有强关联,而自然语言处理可以为人工智能的进步做一点点贡献,但是是比较微弱的。谢谢。

1.9K111

自然语言处理背后的算法基本功能

自然语言处理背后的数据科学 自然语言处理(NLP)是计算机科学和人工智能范畴内的一门学科。 NLP是人与机器之间的沟通,使得机器既可以解释我们的语言,也可以就此作出有效回答。...本文将详细介绍自然语言处理领域的一些算法的基本功能,包含一些Python代码示例。 标记化 开始自然语言处理之前,我们看几个非常简单的文本解析。...使用Python判断词性:(使用NLTK库) 你必须安装NLTK,这是一个用于自然语言处理的Python库。...计算系统中的自然语言不是噱头或玩具,而是我们生活中无缝对接计算系统的未来。 Arcadia Data刚刚发布了5.0版,其中包括我们称之为Search Based BI的自然语言查询功能。

1.3K20

自然语言处理」使用自然语言处理的智能文档分析

智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察。...本体为实体定义关系和相关术语,这使实体识别器能够使用文档的上下文来消除模糊实体之间的歧义。 基于模式的实体识别——如果实体类型可以由正则表达式定义,那么可以使用正则表达式匹配来识别它们。...对于这种类型的用例,语义相似性是有用的,因为考虑两种技能(如人工智能和机器学习)或职位(如数据科学家和数据架构师)可能是相关的,即使它们不完全相同,这是很重要的。 4....基于摘要的摘要使用自然语言生成来改写和压缩文档。与基于提取的方法相比,这种方法更加复杂和实验性。 文本摘要可用于使人们能够快速地消化大量文档的内容,而不需要完全阅读它们。...如何处理智能文档分析项目?

2.3K30

目标检测算法之NMS后处理相关

前言 昨天盘点了一下目标检测算法的常见数据集还有评判标准,但目标检测过程还有一个后处理算法的重要性确常被忽略,今天我们就来盘点一下目标检测算法中的NMS相关知识吧。...原理 在目标检测任务中,定义最后的候选框集合为,每个候选框对应的置信度是,IOU阈值设为,然后NMS的算法过程可以表示如下: 选择具有最大score的候选框 将从集合中移除并加入到最终的检测结果中 将中剩余检测框中和的交并比...如果按照传统的NMS进行处理,首先选中得分最高的红色框,然后绿色框就会因为与之重叠面积过大而被删掉。 ?...算法伪代码如下: ? 在这里插入图片描述 正如作者所说,改一行代码就OK了。这里的函数可以是线性函数,也可以是高斯函数。...后记 今天介绍了目标检测任务中的后处理过程最重要的NMS算法以及它的改进方案Soft-NMS算法,并提供了实现源码,希望大家能彻底理解这两个算法。 思考 NMS的阈值是否可以自适应?

92430

自然语言处理第2天:自然语言处理词语编码

一、自然语言处理介绍 自然语言处理(Natural LanguageProcessing)简称NLP,与一般的机器学习任务都不相同,自然语言处理研究我们的语言任务,因为文本是一个复杂的东西,我们如何让计算机去理解我们的自然语言是一个很有挑战的事情...like the stars,那么四个单词对应的one-hot向量分别如图中所示,one-hot向量的长度即为句子长度 缺点 仅能表示单词位置信息,无法表示更复杂的,如上下文,单词类型等信息 无法处理词库外的词...,即无法处理没有在数据集中的词汇 2.词嵌入 介绍 词嵌入是一种更加有效的表达单词的处理方法,看下面的简单示例 同样的一句话,词嵌入的表示方法如下图所示,每个词的词嵌入向量的长度由我们根据任务来设置,...for 'CLS' token: {last_hidden_states[0].numpy().shape}") print(last_hidden_states[0][0].numpy()) 四、结语 自然语言处理的编码问题是一个很基础的问题...,之后在自然语言处理领域中将会经常看到,请好好了解

9210

nlp自然语言处理

NLP nlp自然语言处理(不一定是文本,图形也可以)接入深度学习(向量处理),需要把文字等内容转换成向量输入 深度学习分为有监督和无监督学习两类,对应分类和生成算法都是向量输入 词嵌入(映射到向量)...但数据计算量太大,所以后续更多的是减少数据量和建立关联性 one-hot,最简单分类(单位矩阵),无法识别词之间的相似性,维度高计算量大(10w个词,需要10w个维度) word2vector包含两个算法...[1])) # 训练操作 train_op = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy_loss) FastText算法库...统计同一词在一个上下文出现后在另一个上下文出现的概率 词向量输出位,共现方阵大小v*v(隐藏层输出) bert 知识图谱,rdf三元组(包含两点一线的结构)、neo4j 图嵌入 类似词嵌入的方式,可以在分类算法

16240
领券