用 Docker 的人都知道,我们在查询远端镜像仓库中镜像的时候,在命令行只能看到镜像名,说明等信息,而看不到标签。...因此,如果我想要查看镜像有哪些标签,就只能通过网页的方式查看,比如通过 https://hub.docker.com/ 查看,这样实在是太麻烦,于是乎,我想是不是可以写个小工具来干这个事呢?...答案当然是肯定的。下面就看看怎样实现的吧。 写了个脚本 list_img_tags.sh,内容如下: #!...restful API,来查询,然后把返回的 json 结果简单处理一下,然后打印出来。...上面脚本的实现是只从 hub.docker.com 来查询,如果使用其它仓库,可以根据需要修改仓库的url。 测试一哈 $ .
SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。...dependency parsing dependency parsing(依赖解析)包括分配句法依赖标签,描述各个标记之间的关系,如主题或对象。...,在 NLP 任务中经常被忽略,因为它们通常对句子没有什么意义。...为了使它们紧凑和快速,spaCy 的小型处理管道包(所有以 sm 结尾的包)不附带词向量,只包含上下文敏感的张量。...句子相似度 spaCy可以计算句子之间的相似性。这是通过对每个句子中单词的词嵌入进行平均,然后使用相似度度量计算相似度来完成的。
在这个简单的例子中,整个文档仅仅是一个简短的句子。...对于这个句子中的每个单词,spaCy都创建了一个token,我们访问每个token中的字段来显示: 原始文本 词形(lemma)引理——这个词的词根形式 词性(part-of-speech) 是否是停用词的标志...当spaCy创建一个文档时,它使用了非破坏性标记原则,这意味着tokens、句子等只是长数组中的索引。换句话说,他们没有将文本切分成小段。...因此,每个句子都是一个span(也是spaCy中的一种数据结构)单独,包含了它在文档数组中的开始和结束索引: for sent in doc.sents: print(">", sent.start...VERB 此时,我们可以解析一个文档,将该文档分割成句子,然后查看每个句子中token的注释。
从句子中提取维基百科信息 有几种工具可用于处理来自维基百科的信息。对于文本数据的自动处理,我们使用了一个名为SpikeX的spaCy开放项目。...SpikeX进行处理,并从句子中检测到的相应Wikipedia页面中提取类别。...我们把话题作为维基百科的分类。这样我们就有了第一个简单的话题检测。 这种方法不同于语义超图、文本秩或LDA,它在不直接引用术语的情况下查找句子主题的标签。...提取的主题的标签是指与SpikeX匹配的Wikipedia页面的类别。如果我们使用这种方法聚合每个句子的主题,我们就可以更好地表示整个文档。 在句子中划分类别的频率可以更广泛地了解文本的主题分布。”...评估自然语言处理任务准确性的精确度和召回率的典型测量方法,在这篇文章中没有显示。 此外,这种方法也有优点和缺点。其主要优点在于避免了训练,从而减少了耗时的注释任务。
但是,手动构建知识图谱是不可扩展的。没有人会浏览成千上万的文档并提取所有实体及其之间的关系! 这就是为什么机器更适合执行此任务的原因,因为浏览甚至成百上千的文档对于他们来说都是很简单的事。...你可以在以下文章中阅读有关依赖项解析的更多信息[1]。 让我们获取所选择的一句句子的依赖项标签。...prv_tok_dep和prv_tok_text将分别保存句子中前一个单词和上一个单词本身的依赖项标签。prefix和modifier将保存与主语或宾语关联的文本。...chunk 5: 一旦捕获了句子中的主语和宾语,我们将更新先前的标记及其依赖项标签。...在以上句子中,‘film’ 是主语,“ 200 patents”是宾语。现在,我们可以使用此函数为数据中的所有句子提取这些实体对: Output: ?
许多SpaCy的令牌方法提供了已处理文本的字符串和整数表示:带有下划线后缀的方法返回字符串和没有下划线后缀的方法返回整数。...POS标记 词性标注是将语法属性(即名词,动词,副词,形容词等)分配给单词的过程。共享相同POS标签的单词往往遵循类似的句法结构,并且在基于规则的过程中很有用。...例如,在事件的给定描述中,我们可能希望确定谁拥有什么。通过利用所有格,我们可以做到这一点(提供文本在语法上是合理的!)。SpaCy使用流行的Penn Treebank POS标签(见这里)。...虽然我们讨论Doc方法的主题,但值得一提的是spaCy的句子标识符。NLP任务想要将文档拆分成句子并不罕见。...在后面的文章中,我将展示如何在复杂的数据挖掘和ML任务中使用spaCy。
这条推文是否包含此人的位置? 本文介绍如何使用NLTK和SpaCy构建命名实体识别器,以在原始文本中识别事物的名称,例如人员、组织或位置。...我们得到一个元组列表,其中包含句子中的单个单词及其相关的词性。 现在,我们实现名词短语分块,以使用正则表达式来识别命名实体,正则表达式指示句子的分块规则。...输出可以读取为树或层,S为第一层,表示句子。我们也可以用图形方式显示它。 ? IOB标签已经成为表示文件中块结构的标准方式,我们也使用这种格式。...() 我们使用同样的句子。...使用spaCy的内置displaCy可视化工具,以下是上述句子及其依赖关系: displacy.render(nlp(str(sentences [20])),style='dep',jupyter=
下面是我们将停止词变成灰色后的句子: ? 停止词通常通过检查已知的停止词的硬编码列表来识别。但是没有适用于所有应用程序的停止词的标准列表。要忽略的单词列表可以根据应用程序而变化。...因为这个词出现在很多乐队的名字中,还有一个著名的 1980 摇滚乐队叫做「The The」! 步骤 6a:依赖解析 下一步是弄清楚我们句子中的所有单词是如何相互关联的,这叫做依赖解析。...步骤 7:命名实体识别(NER) 现在我们已经完成所有困难的工作,终于可以超越小学语法,开始真正地提取想法。 在我们的句子中,我们有下列名词: ? 这些名词中有一些是真实存在的。...以下是我们在使用 NER 标签模型运行每个标签之后的句子: ? 但是 NER 系统不仅仅是简单的字典查找。...人类阅读这个句子时,可以很容易地理解「it」的意思是「London」。共指解析的目的是通过追踪句子中的代词来找出相同的映射。我们想找出所有提到同一个实体的单词。
3、实体识别Entities Recognition 首先我们需要抽取实体,也就是知识图谱上的“节点”: 从一个句子中提取一个单词并不是一项艰巨的任务。借助词性标签,我们可以很容易地做到这一点。...规则可以是这样的:提取主题/对象及其修饰符,还提取它们之间的标点符号。 然后看看句子中的宾语(dobj)。这只是锦标赛,而不是ATP挑战者锦标赛。这里没有修饰语,只有复合词。...prv tok dep和prv tok text将分别保留句子中前一个单词和前一个单词本身的依赖标签。前缀和修饰符将保存与主题或对象相关的文本。...例如,在句子中,1929年上映的60部好莱坞音乐剧中,动词是在,这就是我们要用的,作为这个句子中产生的三元组的谓词。下面的函数能够从句子中捕获这样的谓词。...本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
spaCy中的多任务学习 灾难性的遗忘问题最近对于spaCy用户变得更加相关,因为spaCy v2的部分语音,命名实体,句法依赖和句子分割模型都由一个卷积神经网络产生的输入表示。...默认的spaCy模式在这种类型的输入上表现不佳,因此我们想在一些我们要处理的文本类型用户命令的例子中更新模型。...这种解析是错误的 – 它将动词“搜索”当成了名词。如果你知道句子的第一个单词应该是动词,那么你仍然可以用它来更新spaCy的模型。...依赖性解析或实体识别器没有标签,因此这些模型的权重将不会被更新。然而,所有模型共享相同的输入表示法,因此如果这种表示法更新,所有模型都可能受到影响。...然而,从一个例子来看,模型没有办法猜测它应该学习什么级别的一般性。是否所有词都标记为VBP?这句话的第一个词是什么?是否搜索了所有实例?
从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NLP任务,以及相关资源和代码。 为什么要写这篇文章?...简单来说,词性标注是对句子中的词语标注为名字、动词、形容词、副词等的过程。...命名实体消岐是对句子中的提到的实体识别的过程。...(https://arxiv.org/pdf/1504.07678.pdf) 论文2:Ganea and Hofmann的这篇文章运用了局部神经关注模型和词向量化,没有人为设置特征。...从使用LSTMs和Word嵌入来计算一个句子中的正负词数开始,有很多方法都可以用来进行情感分析。
然而不幸的是,我们并不是生活在所有数据都是结构化的历史交替版本中 这个世界上的许多信息都是非结构化的,如英语,或者其他人类语言写成的原文。那么,如何让计算机理解这种非结构化文本并从中提取数据呢?...我们是通过检查已知停止词的编码列表来识别停止词的。但是,并没有一个适合所有应用的标准停止词列表。因此,要忽略的单词列表可能因应用而异。...▌第七步:命名实体识别(NER) 既然我们已经完成了所有这些艰苦的工作,我们终于可以越过初级语法,开始真正地提取句子的意思。 在这个句子中,我们有下列名词: ?...指代消解(Coreference Resolution)的目标是,通过跟踪句子中的代词来找到相同的映射。我们要弄清楚所有指向同一个实体的代词。...这里有一个简单的 scrubber,可以很轻松地删除掉它所检测到的所有名称: import spacy # Load the large English NLP model nlp = spacy.load
另一个著名的方法是TextRank,它是一种使用网络分析来检测单个文档中主题的方法。最近,在NLP中的高级研究还引入了能够在句子级别提取主题的方法。...SpikeX处理,并且从句子中检测到的相应Wikipedia页面中提取了Categories。...我们将主题视为Wikipedia的类别。这样,我们就可以首次对主题进行简单的检测。与语义超图,文本等级或LDA不同,此方法无需直接引用术语即可查找句子主题的标签。...提取的主题标签是指与SpikeX匹配的Wikipedia页面的类别。如果我们使用这种方法汇总每个句子的主题,那么整个文档将有更好的表示形式。 ?...通过增加句子中类别的频率,可以更广泛地查看文本的主题分布。“Safety”和“Euthenics”出现的频率高于其他类别。
01 句法分析 句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。...作用是识别出句子中的短语结构以及短语之间的层次句法关系。...03 重要概念 依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。 依存句法理论中,“依存”指词与词之间支配与被支配的关系,这种关系不是对等的,这种关系具有方向。...依存语法本身没有规定要对依存关系进行分类,但为了丰富依存结构传达的句法信息,在实际应用中,一般会给依存树的边加上不同的标记。...依存正确率(DA):测试集中找到正确支配词非根结点词占所有非根结点词总数的百分比。 根正确率(RA):有二种定义,一种是测试集中正确根结点的个数与句子个数的百分比。
Spacy 提供了许多不同的 模型 , 模型中包含了 语言的信息- 词汇表,预训练的词向量,语法 和 实体。...Spacy 会先将文档 分解成句子,然后再 tokenize 。我们可以使用迭代来遍历整个文档。...有多种类型的实体,例如 - 人物,地点,组织,日期,数字。可以通过 document 的 ents 属性来访问这些实体。 下面代码用来 找出 当前文档中的所有 命名实体。...:解析所有 包含 “hotel” 句子的依赖树,看看都用了什么样的形容词来描述 “hotel”。...下面创建了一个自定义函数来解析依赖树和抽取相关的词性标签。
在下面的文章中,将了解如何以快速简便的方式开始使用spaCy。它对NLP领域的初学者爱好者特别有用,并提供逐步说明和明亮的例子。...将这个文本分成句子,并在每个句子的末尾写下每个句子的字符长度: sentences = list(doc3.sents)for i in range(len(sentences)): print(sentences...由于机器需要将所有内容转换为数字以理解世界,因此每个单词都由NLP世界中的数组(单词向量)表示。...这是spaCy词典中“man”的单词vector: [-1.7310e-01, 2.0663e-01, 1.6543e-02, ....., -7.3803e-02] spaCy的单词向量的长度是300...如果一切都用数字表示,如果可以用数学方法计算相似性,可以做一些其他的计算吗?例如,如果从“男人”中减去“女人”并将差异添加到“女王”中,能找到“国王”吗?
当计算机在处理文本时,如果没有说明,它会把“pony”和“ponies”看成完全不同的对象,因此了解每个单词的基本形式很有帮助,只有这样,计算机才知道两个句子在谈论同一个概念。...第六步(a):依存句法分析(Dependency Parsing) 下一步是弄清楚句子中的所有单词是如何相互关联的,也就是依存句法分析。...在示例句子中,我们有以下名词: ? 这些名词中包含一些现实存在的东西,比如“伦敦”“英格兰”“英国”表示地图上的某个地理位置。...下图把各个词例输入NER模型后,示例句子的变化情况: ? 虽然直观上看不出,但NER绝不是简单地查词典、打标签,它包含一个单词在上下文中位置的统计模型,可以预测不同单词分别代表哪种类型的名词。...如下是一个简单的数据清理器,它可以删除检测到的所有名称: import spacy # Load the large English NLP model nlp = spacy.load('en_core_web_lg
在文本自动理解的NLP任务中,命名实体识别(NER)是首要的任务。NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。 NER模型可以用来理解一个文本句子/短语的意思。...它可以识别文本中可能代表who、what和whom的单词,以及文本数据所指的其他主要实体。 在本文中,将介绍对文本数据执行 NER 的 3 种技术。这些技术将涉及预训练和定制训练的命名实体识别模型。...NLTK包提供了一个参数选项:要么识别所有命名实体,要么将命名实体识别为它们各自的类型,比如人、地点、位置等。...如果binary=True,那么模型只会在单词为命名实体(NE)或非命名实体(NE)时赋值,否则对于binary=False,所有单词都将被赋值一个标签。...的预训练 NER 模型的性能似乎是最好的,其中预测的各种标签非常接近人类的实际理解。
: 数据集类,__getitem__ 返回 Example实例 torchtext.data.Field : 用来定义字段的处理方法(文本字段,标签字段) 创建 Example时的 预处理 batch...下面是 text 预处理的工作列表,打勾的代表 torchtext 已经支持的工作: File Loading: 加载不同文件格式的 corpus Tokenization: 将句子 分解成 词列表...—> torchtext.data.Iterator 将 Datasets 中的数据 batch 化 其中会包含一些 pad 操作,保证一个 batch 中的 example 长度一致 在这里将 string...Torchtext 可能也会允许使用 text 作为 label,但是现在我还没有用到。...您可以很容易的检查 batch 后的结果,同时会发现,torchtext 使用了动态 padding,意味着 batch内的所有句子会 pad 成 batch 内最长的句子长度。
图中显示了所有的变形中词干是如何呈现的,它形成了每个变形都是基于使用词缀构建的基础。从词形变化的形式中获得基本形式和根词干的反向过程称为词干提取。...也就是说,词干的语义可能不是正确的,并且可能没有出现在字典中(从前面的输出中可以看到例子)。 ▌词形还原 词形还原与词干提取非常相似,我们去掉词缀以获得单词的基本形式。...例如考虑一下这个句子,“The brown fox is quick and he is jumping over the lazy dog”,它是由一串单词组成的,只是单词本身并没有告诉我们很多信息。...它们的主要作用是描述或限定一个句子中的名词和代词,它们将被放在名词或代词之前或之后。 副词短语(ADVP):这类短语起类似像副词的作用,因为副词在短语中作为头词。...这包括 POS标注和句子中的短语。 我们将利用 conll2000 语料库来训练我们的浅解析器模型。这个语料库在 nltk 中可获得块注释,并且我们将使用大约 10K 条记录来训练我们的模型。
领取专属 10元无门槛券
手把手带您无忧上云