法语中带有反身代词的Spacy's phrasematcher_Spacy中的PhraseMatcher是否仍然适用于错误的标记化？_如果使用python spaCy PhraseMatcher从两个模式中的每一个找到一个匹配，则返回match - 腾讯云开发者社区

作者 | Dipanjan (DJ) Sarkar 编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【人工智能头条导读】在研究和处理自然语言处理的很多问题时，除了关注各种各样基础的数据，高级的深度学习模型、算法外，其实中间还涉及了很多处理技术，比如：词干提取、词形还原、句法分析、语义分析等，虽然不同的语言特征不同，但是这其中大部分步骤都是存在于大多数NLP领域任务中的。今天特别为大家准备了一篇包含NLP重要技术概念学习和实践的文章，希望无论是基础数据、技术理论还是代码实践大家都可

您找到你想要的搜索结果了吗？

是的

没有找到

词性标注

词性用来描写叙述一个词在上下文中的作用。比如描写叙述一个概念的词叫做名词，在下文引用这个名词的词叫做代词。有的词性常常会出现一些新的词，比如名词，这种词性叫做开放式词性。另外一些词性中的词比較固定，比如代词，这种词性叫做封闭式词性。由于存在一个词相应多个词性的现象，所以给词准确地标注词性并非非常easy。比方：”改革”在”中国開始对计划经济体制进行改革”这句话中是一个动词，在”医药卫生改革中的经济问题”中是一个名词。把这个问题抽象出来就是已知单词序列，给每一个单词标注上词性。

一点点spaCy思想食物：易于使用的NLP框架

在下面的文章中，将了解如何以快速简便的方式开始使用spaCy。它对NLP领域的初学者爱好者特别有用，并提供逐步说明和明亮的例子。

NeuralCoref: 用指代消解来做一个“能多轮对话的问答对话机器人”

初学者|一起来看看词性标注

一起来看看词性标注

本文根据自己的学习过程以及查阅相关资料的理解，对自然语言基础技术之词性标注进行了相对全面的简绍，包括定义、目前的难点以及常见方法，还推荐了一大波 Python 实战利器，并且包括工具的用法。

NeuralCoref: python的共指消解工具，向代词指代的问题进军！

从“London”出发，8步搞定自然语言处理（Python代码）

【新智元导读】自然语言处理是AI的一个子领域，从人们日常沟通所用的非结构化文本信息中提取结构化数据，以便计算机理解。本文用通俗易懂的语言深入浅出的介绍了自然语言处理，并用Python实现了几个非常有趣的实例。

【他山之石】python从零开始构建知识图谱

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注。

Python文本预处理：步骤、使用工具及示例

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。

知识图谱:一种从文本中挖掘信息的强大数据科学技术

梅西(Lionel Messi)无需介绍,甚至不喜欢足球的人都听说过，最伟大的球员之一为这项运动增光添彩。这是他的维基百科页面：

实用的AI：使用OpenAI GPT2，Sentence BERT和Berkley选区解析器从任何内容自动生成对或错问题

在本文中，将介绍如何使用最新的AI算法自动生成“对或错”问题，例如您在学校教科书中看到的问题。

Transformer注解及PyTorch实现(下)

我们使用标准WMT 2014英语-德语数据集进行了训练，该数据集包含大约450万个句子对。使用字节对的编码方法对句子进行编码，该编码具有大约37000个词的共享源-目标词汇表。对于英语-法语，我们使用了WMT 2014 英语-法语数据集，该数据集由36M个句子组成，并将词分成32000个词片(Word-piece)的词汇表。

无敌了，用Python给英语老师开发了个英语作文批改的神器（支持小学到雅思）

最近一个家长退群的故事在某博上了热搜。故事中老师和家长的矛盾由批改作业集中爆发，至于孰是孰非，还是交给吃瓜群众去评价吧，作为一个技术工作者，我突发奇想，是否以后能让机器来辅助老师批改作业呢？这仿佛是个维护世界和平的点子！

Markdown使用教程

Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档。

Python中的NLP

自然语言处理（NLP）是数据科学中最有趣的子领域之一，数据科学家越来越期望能够制定涉及利用非结构化文本数据的解决方案。尽管如此，许多应用数据科学家（来自STEM和社会科学背景）都缺乏NLP经验。

论机器翻译之浅薄

翻译 | shawn 编辑 | 波波、费棋【AI科技大本营导读】尽管机器翻译明显玩不转备受期待的长篇内容，但我们得承认，在快速获知单词含义层面，它确实为人们提供了一定便利。可奇怪的是，无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛，这给了人们一种快要成了的错觉。有人要揭开盲目乐观的面纱，因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体验 Google 翻译的经历指出，翻译软件目前是只知其形，还不解其意。进一步说，机器翻译要想替代人类，不

Stanford CoreNLP工具使用

Stanford CoreNLP是使用Java开发的进行自然语言处理的工具。支持多种语言接口，Stanfordcorenlp是它的一个python接口。

亲手制作一个《哈利·波特》人物图谱，原来罗恩和赫敏的姻缘从第一部就已注定？

文摘菌记得小时候看《哈利·波特》小说的时候，最难记住的就是那些音译的名字，又长又多，最后只能关注那几个主要人物，跟着主要剧情一路过去，当个爽文看完了。

NLP研究者的福音—spaCy2.0中引入自定义的管道和扩展

以前版本的spaCy很难拓展。尤其是核心的Doc，Token和Span对象。他们没有直接实例化，所以创建一个有用的子类将涉及很多该死的抽象（想想FactoryFactoryConfigurationFactory类）。继承无法令人满意，因为它没有提供自定义组合的方法。我们希望让人们开发spaCy的扩展，并确保这些扩展可以同时使用。如果每个扩展都需要spaCy返回一个不同Doc子集，那就没办法实现它了。为了解决这个问题，我们引入了一个新的动态字段（dynamic field），允许在运行时添加新的特性，属性和

使用Python中的NLTK和spaCy删除停用词与文本标准化

【磐创AI 导读】：本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化，欢迎大家转发、留言。想要更多电子杂志的机器学习，深度学习资源，大家欢迎点击上方蓝字关注我们的公众号：磐创AI。

记一次英语批改作业软件的开发-除了老师和家长，它也可以批改作业

号称世界最快句法分析器，Python高级自然语言处理库spaCy

spaCy是Python和Cython中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量，目前支持20多种语言的标记。它具有世界上速度最快的句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合。它是在MIT许可下发布的商业开源软件。 spaCy项目由@honnibal和@ines维护，虽然无法通过电子邮件提供个人支持。但开源者相信，如果公开分享，会让帮助更有价值，可以让更多人从中受益。（Github官方地址：

教你用Python进行自然语言处理（附代码）

自然语言处理是数据科学中的一大难题。在这篇文章中，我们会介绍一个工业级的python库。自然语言处理（NLP）是数据科学中最有趣的子领域之一，越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此，许多应用数据科学家（均具有STEM和社会科学背景）依然缺乏NLP（自然语言处理）经验。在这篇文章中，我将探讨一些基本的NLP概念，并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读，但前提是假设读者具备Python的知识。你是在说spaCy

python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

THULAC 四款python中中文分词的尝试。尝试的有：jieba、SnowNLP（MIT）、pynlpir（大数据搜索挖掘实验室（北京市海量语言信息处理与云计算应用工程技术研究中心））、th

010

Tweets的预处理

自然语言处理是机器学习的一个领域，涉及到对人类语言的理解。与数字数据不同，NLP主要处理文本。探索和预处理文本数据需要不同的技术和库，本教程将演示基础知识。

你真的会写 Prompt ? 剖析 RAG 应用中的指代消解

随着 ChatGPT 等大语言模型(LLM)的不断发展，越来越多的研究人员开始关注语言模型的应用。

NLP入门+实战必读：一文教会你最常见的10种自然语言处理技术（附代码）

大数据文摘作品编译：糖竹子、吴双、钱天培自然语言处理（NLP）是一种艺术与科学的结合，旨在从文本数据中提取信息。在它的帮助下，我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析，自然语言处理成为所有数据科学家的必备技能之一。在这篇文章中，你将学习到最常见的10个NLP任务，以及相关资源和代码。为什么要写这篇文章？对于处理NLP问题，我也研究了一段时日。这期间我需要翻阅大量资料，通过研究报告，博客和同类NLP问题的赛事内容学习该领域的最新发展成果，并应对NLP处理时遇到的各类状

谷歌禁用基于性别的代词，避免AI在自动完成句子过程中出现偏见

谷歌于5月推出了一款灵活的Gmail功能，可以在用户输入时自动完成句子。输入“我爱”，Gmail可能会自动给出“你”或“它”。但是用户也可能想要表达“他”或“她”。

Github项目推荐 | 用于自然语言处理的开源 Python 库 —— PyTorch-NLP

PyTorch-NLP 是用于自然语言处理的开源 Python 库，它构建于最新的研究之上，可以帮助开发者快速开发原型。PyTorch 带有预训练嵌入（pre-trained embeddings）、采样器、数据集加载器、神经网络模型和文本编码器。

一文看尽2019年NLP前沿突破

它发表于2018年末，自那之后的一年，NLP和NLU(自然语言理解)领域有了较大的发展。

[自然语言处理|NLP] 命名实体识别（NER）

自然语言处理（NLP）领域中的命名实体识别（NER）是一项关键任务，旨在从文本中提取具有特定意义的实体，如人名、地名、组织机构、日期等。这项技术在信息提取、问答系统、机器翻译等应用中扮演着重要角色。本文将深入探讨NER的定义、工作原理、应用场景，并提供一个基于Python和spaCy库的简单示例代码。

018

在PyTorch中使用Seq2Seq构建的神经机器翻译模型

在这篇文章中，我们将构建一个基于LSTM的Seq2Seq模型，使用编码器-解码器架构进行机器翻译。

NIPS2022开源！TOIST：通过蒸馏实现面向任务的实例分割Transformer

归功于大规模视觉语言模型，名词指代表达理解模型已经取得了巨大的进展。然而，在像智能服务机器人这样的现实交互中，系统输入通常较为隐晦(比如舒服得坐下这样的动作)，现代视觉语言模型设计是否能有效地理解动词所指仍然有待探索。在2022 NeurIPS论文“Centroid Distance Keypoint Detector for Colored Point Clouds”中，清华大学、北京大学以及Intel Labs联合开发了一种面向任务的实例分割Transformer，对于场景理解具有重要意义。

用Python构建NLP Pipeline，从思路到具体代码，这篇文章一次性都讲到了

授人以鱼不如授人以渔，今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码，还一步步详细解析了实现原理和思路。正所谓有了思路，无论是做英语、汉语的语言处理，才算的上有了指导意义。

一文看懂Transformer内部原理（含PyTorch实现）

"Attention is All You Need" 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量，还为许多NLP任务提供了新的结构。虽然原文写得很清楚，但实际上大家普遍反映很难正确地实现。

一文看尽2019全年AI技术突破

最近，Analytics Vidhya发布了2019年AI技术回顾报告，总结了过去一年中，AI在不同技术领域取得的进展，并展望了2020年的新趋势。

使用 spacy 进行自然语言处理（一）

自然语言处理(NLP) 是人工智能方向一个非常重要的研究领域。自然语言处理在很多智能应用中扮演着非常重要的角色，例如：

用Python构建NLP Pipeline，从思路到具体代码，这篇文章一次性都讲到了

独家 | 快速掌握spacy在python中进行自然语言处理（附代码&链接）

本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。

教程 | 比Python快100倍，利用spaCy和Cython实现高速NLP项目

相关 Jupyter Notebook 地址：https://github.com/huggingface/100-times-faster-nlp

常用python组件包

$ pip list Package Version ---------------------- ------------- aniso8601 2.0.0 asn1crypto 0.23.0 astroid 1.6.2 attrs 17.2.0 Automat 0.6.0 awscli 1.14.14 bcrypt 3.1.4 beautifulsoup4 4.6.0 bleach 1.5.0 boto 2.48.0 boto3 1.5.8 botocore 1.8.22 bs4 0.0.1 bz2file 0.98 certifi 2017.7.27.1 cffi 1.11.0 chardet 3.0.4 click 6.7 colorama 0.3.9 constantly 15.1.0 coreapi 2.3.3 coreschema 0.0.4 cryptography 2.0.3 cssselect 1.0.1 cycler 0.10.0 cymem 1.31.2 cypari 2.2.0 Cython 0.28.2 cytoolz 0.8.2 de-core-news-sm 2.0.0 decorator 4.1.2 dill 0.2.7.1 Django 1.11.5 django-redis 4.8.0 django-rest-swagger 2.1.2 djangorestframework 3.7.3 docutils 0.14 dpath 1.4.2 en-blade-model-sm 2.0.0 en-core-web-lg 2.0.0 en-core-web-md 2.0.0 en-core-web-sm 2.0.0 entrypoints 0.2.3 es-core-news-sm 2.0.0 fabric 2.0.1 Fabric3 1.14.post1 fasttext 0.8.3 flasgger 0.8.3 Flask 1.0.2 Flask-RESTful 0.3.6 flask-swagger 0.2.13 fr-core-news-md 2.0.0 fr-core-news-sm 2.0.0 ftfy 4.4.3 future 0.16.0 FXrays 1.3.3 gensim 3.0.0 h5py 2.7.1 html5lib 0.9999999 hyperlink 17.3.1 idna 2.6 incremental 17.5.0 invoke 1.0.0 ipykernel 4.6.1 ipython 6.2.0 ipython-genutils 0.2.0 ipywidgets 7.0.1

做项目一定用得到的NLP资源【分类版】

原文链接：https://github.com/fighting41love/funNLP

【Kaggle微课程】Natural Language Processing - 2.Text Classification

learn from https://www.kaggle.com/learn/natural-language-processing

谷歌翻译区分性别，进一步减少AI偏见

谷歌正在努力减少翻译中的性别偏见，从本周开始，用户获得的翻译将女性和男性区分开来，例如，土耳其语中的“o bir doktor”翻译成英语，会分为“她是医生”和“他是医生”。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐