从python中所选单词的数据帧中获取单词计数_从数据帧中的集合中获取单词？_使用python获取列表中单词字符串中的单词计数 - 腾讯云开发者社区

python

我有一个数据框，里面有评论，我想知道每个评论中有多少个特定的单词。例如，dataframe是这样的： ['good food', 'great staff', 'great food and great staff'] 如果我搜索单词'great‘，结果应该是一个添加的

浏览 8提问于2019-05-17得票数 0

3回答

在python中获取两个数据帧之间包含子字符串的字符串行计数的最快方法

python、python-3.x、pandas、nltk

我有两个数据框，一个有单词，另一个有文本。我想要获取第一个数据帧中包含该单词的所有行的计数。单词=------------2 | database4 | searchID| Text1 | Introduction to python<

浏览 0提问于2020-09-26得票数 0

2回答

python替换单词而不是子字符串

python、string、dataframe、replace、re

我想在数据帧的列中用另一个单词替换另一个单词。下面是我的python代码： import pandas as pddf=pd.DataFrame([x.split(';') for x in text.split('\n')]) df['text'] = df[0].str.replace(r"age","âge"

浏览 23提问于2021-10-02得票数 0

回答已采纳

2回答

用python中的几个文件打开一个文件夹

python、files、directory

如何打开包含多个文件的文件夹？我测试了这些代码，但它返回了一个奇怪的答案。num_words += len (words)只是返回9，但它应该计算在7个文件，70个文本文件中的字数

浏览 0提问于2015-02-15得票数 0

1回答

如何计算每个令牌词的词距离并在一列中返回0距离的计数

python、python-3.x、string、nlp、levenshtein-distance

我得到了两个描述，一个在数据帧中，另一个是单词列表，我需要计算描述中每个单词相对于列表中每个单词的levensthein距离，并返回等于0的levensthein距离的计数计算字典中每个单词的Lev距离的每一行中所有单词的

浏览 1提问于2019-08-24得票数 0

4回答

如何计算Pandas dataframe单元格中的单词总数并将其添加到新列中？

python、pandas、dataframe、count、words

情感分析中的一个常见任务是获取Pandas数据帧单元格中的单词计数，并在此基础上创建一个新列。我该怎么做？

浏览 4提问于2017-09-26得票数 7

回答已采纳

1回答

NLTK语料库中不间断单词的计数

python、nltk、corpus、stop-words

在使用NLTK的python中，如何在按类别筛选的文档中找到不停止字数的计数？我可以想出如何使语料库中的单词被一个类别过滤，例如棕色语料库中所有用于“新闻”的单词是：另外，我可以弄清楚如何获取特定文档的所有单词，例如，棕色语

浏览 2提问于2016-03-05得票数 0

回答已采纳

1回答

在R- Text分析中合并数据框

r、merge、dataframe

我正在对20个新闻组数据集进行一些文本分析，其中一部分依赖于根据所述文章中的单词对不同文章进行分类。我目前所能做的就是解析一篇文章，然后编译关于它的统计数据。我可以在每篇文章中单独做这件事，但将文章组合在一起似乎是我的缺点。在R中，我希望能够做的事情如下：获取两个(理想情况下是任意数量)已解析和词干提取的单词的频率数据

浏览 1提问于2013-07-03得票数 0

回答已采纳

2回答

网页上的字数统计

python、nlp、web-crawler、beautifulsoup

我正在寻找一种方法来提取一个任意网站上的单词的基本统计数据(总计数，密度，链接计数，hrefs)，理想情况下是基于Python的解决方案。虽然使用BautifulSoup解析特定网站并确定大部分内容的位置很容易，但它要求您在处理之前定义内容在DOM树中的位置。这对于hrefs或任何任意标记来说很容易，但在确定其余数据(没有包含在定义良好的标记中)

浏览 0提问于2013-03-30得票数 2

回答已采纳

1回答

在字符串中显示前10个单词

python、string

我正在编写一个程序，从互联网上抓取一个txt文件并读取它。然后，它将显示与该txt文件相关的一系列数据。现在，这一切都很好，直到我们走到最后。我最不想做的事情是显示txt文件中最常用的前10个单词。我现在的代码只显示了10次最频繁的单词。有人能看看这个然后告诉我问题出在哪里吗？你要看的唯一部分是最后一部分。

浏览 4提问于2014-11-19得票数 0

回答已采纳

1回答

解释情感分析(NRC词典)

r、sentiment-analysis、interpretation

不幸的是，与这个不同的是，我不能从文件(get_nrc_sentiment部分)中获得每行代表一个句子的结果数据帧。这与文本组织有关吗？

浏览 3提问于2016-06-09得票数 1

1回答

无法在给定的数据帧上实现TF\IDF

pyspark

我正在尝试实现TF\IDF，但我似乎不能让我的代码工作。我清理了数据，目前的情况是：我有一个包含两列的数据帧:标题、文本。每一行都被认为是一个文档，它的内容是文本列中相应列表中的单词。我正在尝试首先做TF部分，这意味着对于每个文档，获取每个单词的计数，并为每个单词应用日志(1+count)。对于IDF部分，我

浏览 14提问于2020-08-09得票数 0

4回答

统计文件中所有单词的词频

python、python-3.x、pandas、text、nltk

我有一个文本文件，我已经从其中删除了符号和停用词。我想创建一个.csv文件与频率的所有单词(长格式)在降序。

浏览 2提问于2019-05-28得票数 1

1回答

如果找到任何值，则比较两个来自数据库和checkbox=checked的数组

php、mysql、arrays、checkbox、checked

我在数据库中有一个列(应用程序)，它有一个用逗号分隔的单词列表- AAA，BBB，CCC -我有另一列(AppsSelected)，它将以相同的格式填充到用户使用复选框值检查的单词。在一页中，我列出了应用程序中的所有单词，旁边有复选框，在提交时，它会插入已签入appsSelected的单词。在另一页中，它只列出了appsSelected列中<em

浏览 1提问于2014-05-08得票数 0

回答已采纳

2回答

如何在python* pandas中使用groupby连接字符串？*

python、pandas、grouping

我目前在顶部有数据帧。有没有办法使用groupby函数来获取另一个数据帧来对数据进行分组，并将单词连接成下面使用python pandas的格式？[ 

浏览 0提问于2016-06-30得票数 8

回答已采纳

2回答

将计数器转换为具有链接列表值的哈希表

python、python-3.x、data-structures、nltk、tokenize

我有三个计数器，总计数字频率在不同的字符串。，以获得所有计数器中所有单词的总字数。Counter({u'childhood': 8, u'waiting': 4}) 但是，我需要接受每个计数器，并将它们插入到哈希表中，其中单词为key，链接列表为值，其中每个链接条目的每个计数器都有每个字符串的计数中实现这一

浏览 0提问于2018-02-01得票数 1

回答已采纳

1回答

如何基于简单的约束在字典中找到一个单词？

regex、string、search、dictionary

我希望能够在字典(文本文件)中获得与一个非常简单的约束相匹配的所有单词。对于字符串"bccd"，查找所有以"b“开头的单词，其中至少包含两个"c”和至少一个"d“("bydcuc”和"bicdzcd“是有效单词)。字符串中的第一个字母总是应该以单词开头的字母，下面的字母应该包含--至少--它们出现在字符串中<em

浏览 3提问于2014-03-29得票数 1

回答已采纳

2回答

朴素贝叶斯分类器需要知道整个词汇表吗？

twitter、machine-learning、classification、vocabulary、text-classification

显然，数据集是动态的，即文档集合并不固定于一组N文档(即tweet)：当用户在Twitter上爬行时，数据集一次又一次地膨胀。我可以从训练集开始计算模型(并说明词汇表V是由训练集中包含的术语组成的)。现在，人们可以收集一个新的、未分类的推文，其中包含V中未出现的术语(即，未

浏览 20提问于2014-04-25得票数 0

1回答

寻找相当于此javascript代码的python

javascript、python、loops、for-loop、substring

我正在学习python，因为我的工作是能够操作统计数据。我已经了解C#和javascript，可以使用这些语言解决这个问题，但是我很难将解决方案转换为python。该问题计算.txt文件中所有唯一的四个字母单词。任何带有撇号的单词都应该被忽略。忽略单词的情况(即工具和工具只应算作一个单词)。打印出(以便用户可以看到)唯一的四个字母单词的<

浏览 0提问于2019-11-21得票数 0

回答已采纳

2回答

变量选项的汇总计算

我有一个包含许多变量及其选项的大数据框架，所以我需要所有变量及其选项的计数。例如，下面的数据帧。此外，我有相同的另一个数据框架，如果我想合并这两个数据框架，检查列名是否相同，如果不是获取不同列名的名称。不包括c(唯一性，名称)列，目的是在计数的帮助下找出我们是否有拼写错误的单词，或者这些单词是否有重音。f&qu

浏览 1提问于2020-09-22得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云