我是Python的新手,我希望在这里为我的文本分析项目找到帮助。我试图标记从python中的excel导入的几个文本元素。每个文本元素都位于单独的行中。
我试过这段代码,但不起作用。
import spacy
df = txtdf.head()
df2 = df['Textelements']
from spacy.lang.de import German
nlp = German()
doc = nlp(df2)
tokens = [token.text for token in doc]
print(tokens)
我在控制台中得到了这个错误:
ValueError: E1041需要一个字符串、Doc或字节作为输入,但是E1041:
发布于 2022-08-13 08:31:57
nlp(df2)
希望处理一个字符串/文档,但它接收到一个熊猫字符串系列。尝试对列进行批处理:
docs = nlp.pipe(df2)
for doc in docs:
tokens = [token.text for token in doc]
print(tokens)
或者(不推荐使用,因为其速度较慢)对列进行迭代并调用每一行的处理:
for row in df2:
doc = nlp(row)
tokens = [token.text for token in doc]
print(tokens)
如果您确实希望将整个专栏作为一个大文本块处理,那么您必须实现一种方法,在此之前将所有内容都加入到一个文本中。
https://stackoverflow.com/questions/73341992
复制相似问题