首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然语言处理常用资源笔记分享

声明:个人笔记&观点,持续更新…… 个人收集的自用及备用的自然语言处理相关资源,仅供学术交流 项目地址:https://github.com/junchaoIU/ChineseNLP_ResourceNote...,如时间、手机号、运营商、邮箱、地址、人名、身份证 LTP(Language Technology Platform) https://github.com/HIT-SCIR/ltp 提供了一系列中文自然语言处理工具...语料&数据集 项目 地址 简介 ChineseNlpCorpus https://github.com/SophonPlus/ChineseNlpCorpus 搜集、整理、发布 中文 自然语言处理 语料...根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理...领域情感词典构建 https://github.com/hidadeng/wordexpansion 使用SO_PMI互信息算法简单快速构建不同领域(手机、汽车等)的专业情感词典 个人博客:春天与爱情

64821
您找到你想要的搜索结果了吗?
是的
没有找到

常用图像处理算法()

图像处理基本算法操作从处理对象的多少可以有如下划分: 一)点运算:处理点单元信息的运算 二)群运算:处理群单元 (若干个相邻点的集合)的运算...表1 图像处理操作按处理对象数量分类表格 操作类型 具体常用操作 点运算 二值化操作、直方图处理、亮度映射、加法运算、 翻转运 算 、尺度运算 、对数运算 、指数运算等...这一重要特性在许多识别类算法中直方图处理起到关键作用。假设现有3X3的大小的图像。...3.模板卷积运算 模板运算是图像处理中使用频率相当高的一种运算,很多操作可以归结为模板运算,例如平滑处理,滤波处理以及边缘特征提取处理等。...4.形态学处理 形态学处理是二值图像处理中的经典处理手段,主要有膨胀处理和腐蚀处理

66020

某公司自然语言处理算法笔试题

1 请列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF 2 简述几种自然语言处理开源工具包 答:LingPipe、FudanNLP、OpenNLP、CRF++、Standord...CoreNLP、IKAnalyzer 3 简述无监督和有监督算法的区别 答: (1)有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。...PS:部分带标记的是半监督学习 (3)训练集有输入有输出是有监督,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;训练集只有输入没有输出是无监督,包括所有的聚类算法,比如k-means...、PCA、 GMM等 4 请简述几种熟悉的分类算法 答:kNN,kMeans,决策树,随机森林等 5 以下代码是Java实现中文分词,请简述分词过程 public class SplitChineseCharacter

70670

自然语言处理-搜索中常用的bm25

BM25算法是一种常见用来做相关度打分的公式,思路比较简单,主要就是计算一个query里面所有词和文档的相关度,然后在把分数做累加操作,而每个词的相关度分数主要还是受到tf/idf的影响。...具体的bm25 bm25算法是常见的用来计算query和文章相关度的相似度的。...其实这个算法的原理很简单,就是将需要计算的query分词成w1,w2,…,wn,然后求出每一个词和文章的相关度,最后将这些相关度进行累加,最终就可以的得到文本相似度计算结果。 ?...首先Wi表示第i个词的权重,这里我们一般会使用TF-IDF算法来计算词语的权重这个公式第二项R(qi,d)表示我们查询query中的每一个词和文章d的相关度,这一项就涉及到复杂的运算,我们慢慢来看。...以上就是bm25算法的流程了。 以下是实现过程:

5K10

算法集锦(17)|自然语言处理| 比特币市场情绪分析算法

具体的,我们可以使用像TextBlob这样的Python NLP(自然语言处理库)来评估语句是正面的还是负面的。...总的来说,本算法主要有两个流程: 获取微博信息 将微博信息作为字符串输入TextBlob,并估算其极性 ?...算法基本内容 在此,我们并不重点分析市场的情绪如何,而是讨论的是如何收集和分析我们的数据。...使用BeautifulSoup库可以很容易地对这些信息进行处理。...以上是本算法的基本内容,你可以参考本算法去评估更多的市场行为。 对于本算法的优化,可行的方向有:使用机器学习模型来细化极性输出或者使用极性作为其他机器学习模型的输入,等等。

1.4K10

非主流自然语言处理——遗忘算法系列(一):算法概述

一、前言 这里“遗忘”不是笔误,这个系列要讲的“遗忘算法”,是以牛顿冷却公式模拟遗忘为基础、用于自然语言处理(NLP)的一类方法的统称,而不是大名鼎鼎的“遗传算法”!   ...在“遗忘”这条非主流自然语言处理路上,不知不觉已经摸索了三年有余,遗忘算法也算略成体系,虽然仍觉时机未到,还是决定先停一下,将脑中所积梳理成文,交由NLP的同好们点评交流。...在自然语言处理中,很多对象比如:词、词与词的关联、模板等,都具备按相对稳定重现的特征,因此非常适用遗忘来处理。 三、牛顿冷却公式   那么,我们用什么来模拟遗忘呢?   ...四、已经实现的功能 如果把自然语言处理比作从矿砂中淘金子,那么业界主流算法的方向是从矿砂中将金砂挑出来,而遗忘算法的方向则是将砂石筛出去,虽然殊途但同归,所处理的任务也都是主流中所常见。   ...本系列文章将逐一讲解遗忘算法如何以O(N)级算法性能实现:   1、大规模语料词库生成 1.1、跨语种,算法语种无关,比如:中日韩、少数民族等语种均可支持 1.2、未登录词发现(只要符合按相对稳定周期性重现的词汇都会被收录

1.8K120

AI自然语言处理(NLP)领域常用的16个术语

本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解这门学科。 1.自然语言处理(NLP) 自然语言处理,简单来说就是构建人与机器之间沟通的桥梁,以实现人机交流的目的。...3.Encoder-Decoder 和 Seq2Seq Encoder-Decoder是一类算法的统称,在这个框架下可以使用不同的算法来解决不同的任务。...5.分词(Tokenization) 分词是自然语言处理的基础任务,将句子、段落分解为字词单位,方便后续的处理与分析。...CBOW和Skip-gram是Word2vec常用的两种训练模式。...13.自然语言处理工具包(NLT) 在自然语言处理领域,NLT是最常使用的一个Python库,包含Python模块,数据集和教程等内容。

1.7K10

Python NLTK自然语言处理:词干、词形与MaxMatch算法

当然本文涉及的主要任务都是自然语言处理中最常用,最基础的pre-processing过程,结合机器学习的高级应用我们会在后续文章中再进行介绍。...目前市面上可以参考的在Python下进行自然语言处理的书籍是由Steven Bird、Ewan Klein、Edward Loper编写的《Python 自然语言处理》。...Python自然语言处理:词干、词形与MaxMatch算法 自然语言处理中一个很重要的操作就是所谓的stemming 和 lemmatization,二者非常类似。...3、最大匹配算法(MaxMatch) MaxMatch算法在中文自然语言处理中常常用来进行分词(或许从名字上你已经能想到它是基于贪婪策略设计的一种算法)。...以上便是我们对NLTK这个自然语言处理工具包的初步探索,最后,我想说《Python 自然语言处理》仍然是当前非常值得推荐的一本讲述利用NLTK和Python进行自然语言处理技术的非常值得推荐的书籍。

2K50

自然语言处理自然语言处理与人工智能

这是我们真正搞自然语言理解,搞自然语言处理的人必须面对的问题。我们说要善解人意,人意在哪?它藏在符号怪阵的背后。我们来看这张图: ?...那为什么自然语言处理还能这么火呢,我认为这里面一个原因是他们还在吃我所说的“规模红利”。...第一是我们做自然语言处理的,不指望人工智能的天上掉下语言处理的馅饼,还是靠自己认识语言,真正地在这个语言上做文章,而不要在其他的地方做文章,其他的地方没有出路。...看到各种大脑计划,大脑计划的外显能力都离不开自然语言处理,但是我们还是可以根据语言处理所用到的技术的不同,把它们分几个类型,如下图所示: ?...虽然我是这样的题目,结论是自然语言处理和人工智能并没有强关联,而自然语言处理可以为人工智能的进步做一点点贡献,但是是比较微弱的。谢谢。

1.9K111

图像处理常用算法—6个算子 !!

不过,利用二阶导数信息的算法是基于过零检测的,因此得到的边缘点数比较少,有利于后继的处理和识别工作。 各种算子的存在就是对这种导数分割原理进行的实例化计算,是为了在计算过程中直接使用的一种计算单位。...在实际应用中,常用如下两个模板来检测图像边缘。 检测水平边缘 横向模板: 检测垂直平边缘 纵向模板: 图像中的每一个像素的横向及纵向梯度近似值可用以下的公式结合,来计算梯度的大小。...所以,通常的分割算法都是把Laplacian算子和平滑算子结合起来生成一个新的模板。 拉普拉斯算子也是最简单的各向同性微分算子,具有旋转不变性。...Canny分割算法采用一阶偏导的有限差分来计算梯度幅值和方向,在处理过程中,Canny算子还将经过一个非极大值抑制的过程,最后Canny算子还采用两个阈值来连接边缘。...Canny边缘检测算法: 用高斯滤波器平滑图象; 用一阶偏导的有限差分来计算梯度的幅值和方向; 对梯度幅值进行非极大值抑制 用双阈值算法检测和连接边缘 详解: http://www.cnblogs.com

13110

自然语言处理背后的算法基本功能

自然语言处理背后的数据科学 自然语言处理(NLP)是计算机科学和人工智能范畴内的一门学科。 NLP是人与机器之间的沟通,使得机器既可以解释我们的语言,也可以就此作出有效回答。...本文将详细介绍自然语言处理领域的一些算法的基本功能,包含一些Python代码示例。 标记化 开始自然语言处理之前,我们看几个非常简单的文本解析。...使用Python判断词性:(使用NLTK库) 你必须安装NLTK,这是一个用于自然语言处理的Python库。...计算系统中的自然语言不是噱头或玩具,而是我们生活中无缝对接计算系统的未来。 Arcadia Data刚刚发布了5.0版,其中包括我们称之为Search Based BI的自然语言查询功能。

1.3K20

自然语言处理」使用自然语言处理的智能文档分析

智能文档分析(IDA)是指使用自然语言处理(NLP)和机器学习从非结构化数据(文本文档、社交媒体帖子、邮件、图像等)中获得洞察。...例如,在招聘环境中处理文档时,我们想要识别工作头衔和技能。在零售环境中,我们希望识别产品名称。...关系提取可用于处理非结构化文档,以确定具体的关系,然后将这些关系用于填充知识图。 例如,该技术可以通过处理非结构化医学文档来提取疾病、症状、药物等之间的关系。 7....基于摘要的摘要使用自然语言生成来改写和压缩文档。与基于提取的方法相比,这种方法更加复杂和实验性。 文本摘要可用于使人们能够快速地消化大量文档的内容,而不需要完全阅读它们。...如何处理智能文档分析项目?

2.3K30

自然语言处理第2天:自然语言处理词语编码

一、自然语言处理介绍 自然语言处理(Natural LanguageProcessing)简称NLP,与一般的机器学习任务都不相同,自然语言处理研究我们的语言任务,因为文本是一个复杂的东西,我们如何让计算机去理解我们的自然语言是一个很有挑战的事情...like the stars,那么四个单词对应的one-hot向量分别如图中所示,one-hot向量的长度即为句子长度 缺点 仅能表示单词位置信息,无法表示更复杂的,如上下文,单词类型等信息 无法处理词库外的词...,即无法处理没有在数据集中的词汇 2.词嵌入 介绍 词嵌入是一种更加有效的表达单词的处理方法,看下面的简单示例 同样的一句话,词嵌入的表示方法如下图所示,每个词的词嵌入向量的长度由我们根据任务来设置,...for 'CLS' token: {last_hidden_states[0].numpy().shape}") print(last_hidden_states[0][0].numpy()) 四、结语 自然语言处理的编码问题是一个很基础的问题...,之后在自然语言处理领域中将会经常看到,请好好了解

9310

自然语言处理之Skip-Gram的预测算法

一文理解Skip-Gram上下文的预测算法 自然语言处理属于人工智能领域,它将人类语言当做文本或语音来处理,以使计算机和人类更相似,是人工智能最复杂的领域之一。...要想使机器能从原始文本中学习,就需要将数据转换成计算机易于处理的向量格式,这个过程叫做词表示法。 词向量 词表示法在向量空间内表达词语。...Skip-gram就是一种无监督学习技术,常用于查找给定单词的最相关词语。 Skip-gram用于预测与给定中心词相对应的上下文词。 它和连续词袋模型(CBOW)算法相反。...我们不预测常用词和停用词,比如 “the”。 架构 Skip-gram模型架构 上图中,w(t)就是中心词,也叫给定输入词。 其中有一个隐藏层,它执行权重矩阵和输入向量w(t)之间的点积运算。...训练这个算法耗时较长。 编译组: 章文斐、苏英豪

1.6K10

非主流自然语言处理——遗忘算法系列(三):分词

这个假设分词无关的公式,也是本文所介绍的分词算法所使用的。 三、算法分析   问:假设分词结果中各词相互无关是否可行?   ...答:可行,前提是使用遗忘算法系列(二)中所述方法生成的词库,理由如下:   分析ICTCLAS广受好评的分词系统的免费版源码,可以发现,在这套由张华平、刘群两位博士所开发分词系统的算法中假设了:分词结果中词只与其前面的一个词有关...3、算法特点     3.1、无监督学习;     3.2、O(N)级时间复杂度;     3.3、词库自维护,程序可无需人工参与的情况下,自行发现并添加新词、调整词频、清理错词、移除生僻词,保持词典大小适当...往期回顾 : 非主流自然语言处理——遗忘算法系列(一):算法概述 非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

1K60

nlp自然语言处理

NLP nlp自然语言处理(不一定是文本,图形也可以)接入深度学习(向量处理),需要把文字等内容转换成向量输入 深度学习分为有监督和无监督学习两类,对应分类和生成算法都是向量输入 词嵌入(映射到向量)...但数据计算量太大,所以后续更多的是减少数据量和建立关联性 one-hot,最简单分类(单位矩阵),无法识别词之间的相似性,维度高计算量大(10w个词,需要10w个维度) word2vector包含两个算法...中心词预测背景词 cbow,连续词袋模型:背景词预测中心词 输入one-hot输出概率分布,词向量隐藏层输出(非最终输出) 词向量纬度:w(词数量)*v(隐藏层输出) word2vector通过分析词语的常用组合得到词语的分类信息...[1])) # 训练操作 train_op = tf.train.GradientDescentOptimizer(0.1).minimize(cross_entropy_loss) FastText算法库...统计同一词在一个上下文出现后在另一个上下文出现的概率 词向量输出位,共现方阵大小v*v(隐藏层输出) bert 知识图谱,rdf三元组(包含两点一线的结构)、neo4j 图嵌入 类似词嵌入的方式,可以在分类算法

17040
领券