NLTK标记来自列行的块( ne_tree /Pandas/Jupyter)_Pandas NLTK -标记列中的所有行以进行自然语言处理 - 腾讯云开发者社区

、、、

到目前为止，在脚本中定义一行文本是可行的。ex = 'John'print(ne_tree) 输出： (S (PERSON John/NNP我的想法是，以后我可以把句子分解成单词，维护一个键，然后融化。文本是我想要标记化的内容。当我运行这段代码时，我得到了下面的错误。也许我调用它是错误的，并且我需

浏览 8提问于2020-05-04得票数 0

回答已采纳

2回答

当我尝试在我的代码中使用re.sub表达式时，为什么会得到一个名为'expected string or bytes like object‘的错误

、、、、

我有一个csv文件，其中有10列。我的项目是使用nlp将我文件中的评论分类为好的或坏的。当我使用re.sub方法对存储评论的列(评论文本列)进行标记化时，它给出了一个名为“expected or bytes like object”的错误。我已经附上了我的csv文件和我在jupyter笔记本中尝试过的代码。这是我的。我的代码现

浏览 2提问于2019-12-08得票数 0

1回答

无法对整列进行定位

、、

我想从CSV文件中标记数据。我正在使用这段代码，我无法标记整个列。我只能标记列中的第一行。这一栏被称为“推特”。import pandas as pdfrom nltk import word_tokenize data=pd.read_csv('/Users/yoshithKotla/Desktop/dingdang/nov19

浏览 4提问于2021-04-12得票数 1

回答已采纳

1回答

无法在python中标记数据

、、、

这是我的代码，我想导入一个CSV文件，并且只标记来自一列的文本。该列被命名为“tweet”。我无法获取此代码的输出import pandas as pdfrom nltk importword_tokenize

浏览 7提问于2021-04-08得票数 0

1回答

NLTK应用于数据帧，如何遍历列表

、、、、

提前道歉，因为这是我的第一个问题。我正在使用nltk对来自csv的一系列tweet进行标记化，这些tweet是我加载到df中的。标记化可以很好地工作，并输出如下所示的内容[我的叔叔，...]成为df中的单元格。然后，我想对整个df列的标记化文本应用一个POS标记器。我使用下面的代码来做这件事。我知道我在错误的元素上迭代(

浏览 0提问于2016-04-02得票数 0

1回答

如何将这个格式怪异的环形打印函数转换为具有类似输出的数据帧？

、、

我发现有一个代码块在我的项目中很有用，但是我无法让它以与它打印的相同的/所需的格式构建数据框架(2列)。代码块和所需的输出：import pandas as pdnltk.download('averaged_perceptron_tagger'):

浏览 3提问于2022-01-12得票数 2

回答已采纳

1回答

如何使用python读取csv文件的特定列

、、、

我是Scikit-Learn的新手，我想将我已经标记的数据集合转换为数据集。我已经将数据的.csv文件转换为NumPy数组，但是我遇到的一个问题是根据第二列中存在的标志将数据分类到训练集。我想知道如何使用Pandas实用程序模块访问.csv文件的特定行、列。以下是我的代码： import pandas as p

浏览 2提问于2015-08-04得票数 1

1回答

在Pandas中，有没有比这段代码更快的删除停用词和标点符号的方法呢？

、、

我使用的代码似乎太慢了，也许还有其他选择。import pandas as pdimport stringnltk.download(&#x

浏览 1提问于2019-04-13得票数 2

6回答

使用斯坦福Tagger在NLTK中提取人员和组织列表

、、、

当我跑步时：st = NERTagger('/usr/share/stanford-ner/classifiers/allUniversityfor x,y in i: print(x)Sony University 有了真实的

浏览 8提问于2015-06-05得票数 27

回答已采纳

1回答

Python从CSV中准备数据以进行令牌化

、、、

我是Python和NLTK的新手。在从csv导入文本之后，我尝试使用Python中的NLTK来准备用于标记化的文本。文件中只有一列有免费文本。我想分离出那个特定的专栏，就像我做的.我认为。import spacyimport numpy as npfrom nltk.tokenize import word_tok

浏览 2提问于2020-04-24得票数 0

回答已采纳

1回答

Pandas word_tokenize中的nltk DataFrame只返回前101个单词/标记的标记。

、、

我正在尝试将word_tokenization应用于Pandas DataFrame列，作为POS标记之前的步骤。源/原始列为“已发送”(已被句子标记化)，目标列为“word”。下面是代码，包括max列宽度指令： LC_HD_df['word'] = LC_HD_df['sent'].apply(lambda x: nlt

浏览 2提问于2022-06-27得票数 2

回答已采纳

1回答

从Panda数据系列中删除许多行时，Jupyter崩溃

、、

我在Windows10上本地使用Jupyter notebook来创建一个名为pop_data的Pandas数据帧，它由4列和超过450,000行组成。我试图从其中删除大约400,000行(要删除的行的索引来自一个名为deleteTimes的列表)。302 GET错误，并为我中断Jupyter (在此之后在Jupyter中执行命令将不再起作用-我必须重新启动笔记本

浏览 9提问于2019-09-15得票数 0

回答已采纳

1回答

用Python从dataframe的colum中删除停止词

、、、

现在我需要的是从"Palabras“栏中删除其中的一些单词，并且只保留前500条记录。rstrip() for elem in wiki_filas[1:]]print(palabras[0:])nltk.download()prep = stopwords.words(&#x

浏览 0提问于2020-01-17得票数 1

回答已采纳

2回答

为什么Jupyter使用列的值来填充列名？

、

我使用的是一个SPSS .sav文件，它有典型的列名，比如名称、类型、宽度等等。“names”列标记行m1、I1、I2等。这是Jupyter笔记本：df = pd.read_spss('./Data.sav')如你所见，列名是‘name’的条目:宽度，而不是'name'，‘’，'width‘作为列名，有’name‘的</e

浏览 30提问于2019-11-11得票数 0

1回答

python中的文本数据预处理

、、

我正在提取积极的，消极的和中性的关键字在python.There是10,000条评论在我的评论remarks.txt文件(编码的UTF-8).I要导入文本文件，读取个别行的评论和提取单词(标记化)从评论中提到的列我用Python.I编写了一个调用get_keywords函数的小程序，我创建了get_keywords()函数，但遇到了将数据帧的每一行作为参数传递&a

浏览 17提问于2019-09-13得票数 1

1回答

如何获取数据帧中每一行的特定单词的频率

、、

我正在尝试创建一个函数，它从dataframe获取特定单词的频率。我使用Pandas将CSV文件转换为dataframe和NLTK来标记文本。我能够得到整个列的计数，但是我很难得到每一行的频率。以下是我迄今所做的工作。import nltkfrom nltk.tokenize import word_tokenize from collec

浏览 2提问于2020-03-18得票数 0

回答已采纳

2回答

文本分析:使用python查找列中最常见的单词

、

我创建了一个只包含主题行的列的dataframe。top_N = 50words = nltk.tokenize.word_tokenize(txt) stopwords = nltk.corpus.stopwords.words('english

浏览 3提问于2019-09-26得票数 0

回答已采纳

1回答

从CSV中删除非英语单词

、、

我是Python和NLTK的新手，掌握了存储在CSV中的Flickr数据，并且希望从标记列中删除非英语单词。我一直收到错误，说“期望一个字符串或一个类似字节的对象”。我有一种感觉，这是因为标签列目前是在Pandas系列数据类型中，而不是字符串。但是，我在Stack上看到的相关解决方案在转换为string时都没有起作用。我有这样的代码：

浏览 7提问于2022-04-19得票数 0

回答已采纳

1回答

Python:从csv中逐行提取关键字

、、

现在我可以得到全部的提取。如何获取每一行/字段的关键字？id,some_textimport nltkfrom nltk.corpus import stopwordsprint(text_context) print(

浏览 0提问于2018-05-25得票数 1

回答已采纳

2回答

如何使用tokenize模块对python代码进行标记化？

、

假设我有一个包含python代码的字符串。input = "import nltk porter_stemmer=PorterStemmer() stemmed_words=[porter_stemmer.stem(word) for word in words]如何对代码进行标记<

浏览 1提问于2020-06-03得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云