从Pandas Series创建Python Spacy NLP对象的最佳方法

文章/答案/技术大牛

发布

1回答

python、pandas、vectorization、spacy

我想从存储在Pandas数据框列中的25万字符串对象中创建Spacy nlp对象。有没有办法优化下面的“应用”方法，也就是说，有没有办法向量化spacy nlp对象的调用？import pandas as pd nlp = spacy.load("en_core_web_s

浏览 18提问于2020-07-23得票数 1

回答已采纳

2回答

熊猫UDF (PySpark) -错误类型错误

pandas、apache-spark、pyspark、user-defined-functions、spacy

我正在尝试使用spaCy和Pandas (PySpark)提取实体，但我得到了一个错误。def __get_entities(x): nlp = spacy.load("en_core_web_lg") get_entities_udf = F.udf(__get_entities), T.ArrayTy

浏览 4提问于2020-09-01得票数 0

回答已采纳

1回答

我正在尝试使用Spacy构建一个多类文本分类器，我已经构建了这个模型，但是在将它应用到我的完整数据集时遇到了问题。)._.catsValueError: [E1041] Expected a string, Doc, or bytes as input, but got: <class 'pandas.core.series.Series'> 在这种情况下，我想使用Pandas的原因是dataset有两个列: ID

浏览 29提问于2022-12-02得票数 1

1回答

pandas系列和Dataframe中使用Spacy的词汇化问题

python、pandas、dataframe、series、spacy

我正在研究具有(14640,16)形状的，使用Pandas和Spacy进行预处理，但在获取lemmetized形式的文本时有问题。此外，如果我使用仅包含文本列的pandas系列(即只包含一列的数据帧)，也会出现不同的问题。代码：(Dataframe)df['parsed_tweets'] = df[

浏览 12提问于2019-11-14得票数 1

回答已采纳

1回答

将spaCy对象导入到运行Django项目的不同的Docker容器中

python、django、docker、spacy

我正在运行一个带有3个服务(或容器)的坞-撰写文件：我的最终目标是在spacy-web中创建2个nlp对象(nlp_en，nlp_fr)，使用入口点(运行python脚本: spacy_entrypoint.py)，我创建了2个nlp对象，每种语言都有一个(nlp_en、nl

浏览 0提问于2019-09-06得票数 0

1回答

Python创建nlp文档-参数‘SpaCy’的类型不正确

python、nlp、spacy

我是Python NLP的新手，我正在尝试用SpaCy处理CSV文件。使用Pandas可以很好地加载文件，但当我尝试使用SpaCy的nlp函数处理它时，编译器在处理文件内容的过程中出现了大约5%的错误。代码块如下：df = pd.read_csv('./reviews.washington.dc.csv') import <e

浏览 14提问于2017-08-18得票数 1

1回答

调用nlp时出现Python* Spacy错误: UnicodeDecodeError：'ascii‘编解码器无法解码字节0xe2*

python、pandas、nlp、spacy

Python3.6:我在pandas df中的一列文本上使用Spacy。文本中确实有“特殊字符”，我需要保留它们。出于某种原因，nlp需要使用unicode。我从下面的nlp得到一个错误：import spacy df['TextCol'] = df[&

浏览 19提问于2019-08-15得票数 0

2回答

在PySpark中没有命名为“spacy”的模块

pyspark、user-defined-functions、google-cloud-dataproc、named-entity-recognition、spacy-3

: pd.Series) -> pd.Series: nlp = broadcasted_nlp.valueCLARIFICATIONS: 第1条：“您使用哪条命令创建集群？”：我使用了方法，因此该命令在“显而易见的情况下”是不可见的；然而，我刚刚意

浏览 7提问于2022-08-24得票数 1

回答已采纳

1回答

错误解析配置重写- `nlp.tokenizer`节不存在

spacy

我在Spacy遇到了一个奇怪的问题，我不知道我是不是做错了什么，还是它是一个真正的bug。我使用Spacy项目并通过以下方法创建默认配置文件：然后，我尝试使用以下配置加载NLP对象：config/spacy.cfg') nlp</e

浏览 6提问于2021-03-02得票数 0

回答已采纳

1回答

将自定义语言添加到Spacy* 3.0中，并在其中训练管道*

python、spacy、spacy-3

到目前为止，我一直在使用Spacy 2.3.1。我创建了自己的自定义类，继承自Language类，并在其中使用Python脚本训练了一个NER管道。但在Spacy 3.0中，引入了一堆方便的CLI命令和配置，以便训练自定义管道，强烈建议使用这些命令来代替Python脚本。以下是nlp对象的配置示例： ...[nlp]pipeline = ["t

浏览 11提问于2021-04-11得票数 1

回答已采纳

2回答

如何过滤Pandas数据中包含的spaCy标记文本的停止词

python、pandas、dataframe、spacy

我正在尝试将一些spaCy NLP函数应用到包含在熊猫数据中的文本中。对于简单的进程，lambda函数似乎可以工作。但是，当尝试执行需要在单独的函数中定义更复杂的语句的任务时，我很难使lambda方法正常工作。具体来说，对于包含在dataframe中的标记化文本，什么是过滤掉停止词的最佳方法?最起码的例子：import <e

浏览 2提问于2020-06-08得票数 0

回答已采纳

2回答

毫升起火花放电作用

python、pandas、apache-spark、pyspark、apache-spark-sql

下面是一个示例：from pyspark.sql.types import StringTypeHe loves him'], StringType()) import spacy nlp = spacy.load) return doc._.core

浏览 2提问于2020-06-16得票数 5

1回答

使用spaCy* & Transformers -循环内外运行时的不同结果*

python、spacy、huggingface-transformers、named-entity-recognition

我注意到，直接给出输入行时得到的输出与从文件读取输入行时不同(见下面的屏幕快照)。有人对如何解决这个问题有建议吗？import pandas as pdimport spacyfrom transformers importpython -m spacy download en_core_web_trf nlp = spa

浏览 1提问于2021-10-06得票数 0

回答已采纳

2回答

我的问题是“模块'textacy‘没有’Doc‘属性”

spacy、textacy

找不到没有属性'Doc‘的模块'textacy’我正在尝试从spacy中提取动词短语，但是没有这样的库。请帮助我如何使用spacy提取动词短语或形容词短语。我想做完整的浅层解析。def extract_named_nouns(row_series): row_series<

浏览 43提问于2019-06-23得票数 3

1回答

NLP:根据分隔符创建spaCy文档对象，或将多个文档对象合并为一个对象

pandas、nlp、spacy、named-entity-recognition

我正在尝试使用make_doc()函数创建一个spaCy文档对象(spacy.tokens.doc.Doc)。这就是我所做的：nlp = spacy.load('en') print(list(a)) # [Sam, ,, Software, Engineer] 但我想要的

浏览 20提问于2021-05-25得票数 2

回答已采纳

1回答

基于spaCy的令牌化

string、dataframe、nlp、spacy、text-mining

我是Python的新手，我希望在这里为我的文本分析项目找到帮助。我试图标记从python中的excel导入的几个文本元素。每个文本元素都位于单独的行中。df2 = df['Textelements'] nlp = Ge

浏览 2提问于2022-08-13得票数 1

1回答

使用spacy-stanza模型高效地创建doc对象

python、spacy

根据SPACY的创建者，从文本列表创建文档对象的最有效方法如下其中：texts：我们想要转换为doc对象的文本列表但是，当我将此代码与spacy-stanza语言模型一

浏览 18提问于2020-09-27得票数 0

1回答

如何在网站内使用Spacy NLP

python、reactjs、nlp、spacy

我已经与Spacy NLP在木星笔记本中练习了一段时间，并创建了一些脚本，以满足我的需要。我也有一个网站，我已经创建(内置的反应)。我需要能够根据用户在我的网站上选择的内容将数据传递给Spacy脚本，然后当Spacy NLP脚本完成其传递的数据时，需要再次从Spacy NLP脚本接收结果。我已经寻找了相当长的

浏览 1提问于2017-10-28得票数 1

1回答

在内存中为其他python程序提供python对象

python、server、nlp、spacy

考虑下面的代码第二行大约需要一分钟才能完成，对于每个程序，我有以下几行，那么我如何才能更好地服务于nlp对象，而不是每次都从不同的程序加载它呢？import spacy最理想的情况是：nlp对象很大，大约大于2 2GB，因此不需要序列化解决方案我更喜欢为内存中的nlp</

浏览 2提问于2016-06-07得票数 0

1回答

星火3.2 -NLP.pipe - pd.Series.iter()上的熊猫没有实现

python、apache-spark、pyspark、spark-koalas、pyspark-pandas

目前，我正在尝试将一些过程从python迁移到(熊猫上) some，以衡量性能，直到现在，一切都进行得很顺利：nlp定义为：nlp = spacy.load(texts，batch_size=20)上发现了用于文档的错误： PandasNotImplementedError:方法pd.Series./spacy/languag

浏览 9提问于2022-03-09得票数 1

点击加载更多