使用def函数和defaultdict统计特定单词

可以通过以下步骤实现：

首先，导入collections模块中的defaultdict类和re模块，用于创建默认字典和进行正则表达式匹配。

from collections import defaultdict
import re

创建一个函数，例如count_words，该函数接受一个字符串作为参数，并返回一个字典，其中包含特定单词的计数。

def count_words(text):
    # 创建一个默认字典，值的默认类型为int，初始值为0
    word_count = defaultdict(int)
    
    # 使用正则表达式匹配单词
    words = re.findall(r'\w+', text.lower())
    
    # 统计单词出现的次数
    for word in words:
        word_count[word] += 1
    
    return word_count

调用count_words函数，并传入要统计的文本作为参数。

text = "This is a sample text. It contains some words, including some repeated words."
result = count_words(text)
print(result)

输出结果将是一个字典，其中包含特定单词的计数：

{'this': 1, 'is': 1, 'a': 1, 'sample': 1, 'text': 1, 'it': 1, 'contains': 1, 'some': 2, 'words': 2, 'including': 1, 'repeated': 1}

在这个例子中，我们使用了def函数定义了一个名为count_words的函数，该函数使用了defaultdict类创建了一个默认字典word_count，用于存储单词计数。然后，我们使用re模块的findall函数和正则表达式'\w+'来匹配文本中的单词，并将它们转换为小写形式。接下来，我们遍历匹配到的单词列表，并使用字典的自增操作符+=来增加单词的计数。最后，我们返回统计结果。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云函数计算（云原生无服务器计算服务）：https://cloud.tencent.com/product/scf
腾讯云数据库（云原生数据库服务）：https://cloud.tencent.com/product/cdb
腾讯云对象存储（云原生对象存储服务）：https://cloud.tencent.com/product/cos
腾讯云人工智能（AI服务）：https://cloud.tencent.com/product/ai
腾讯云物联网（物联网平台）：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发（移动应用开发服务）：https://cloud.tencent.com/product/mad
腾讯云区块链（区块链服务）：https://cloud.tencent.com/product/baas
腾讯云元宇宙（虚拟现实与增强现实服务）：https://cloud.tencent.com/product/vr-ar

Python字典值被分配到不同的键中

python、python-2.7、python-3.x

我正在用python编写一个单词计数程序。为此，我使用字典存储单词的计数。字典的格式是dint =数组的单词。在添加一个单词时，如果word在dict中已经存在，它将移除该单词并追加到下一个键。在执行dindex.append(word)时，它以某种方式被添加为一个新键。我做错了什么吗？我在Ubuntu上使用python 3.4.3和2.7.9。 def count_words(s, n): d = {} d[1] = [] word_array = [] for word in s.split(): if word not in word

浏览 2提问于2016-02-13得票数 1

回答已采纳

2回答

用函数式编程计算单词出现的次数

python、dictionary、functional-programming、python-itertools

任务给定一个字符串列表，其中可能包含一个或多个单词，我如何使用函数编程来创建一个词频字典？通过函数式编程，我明确地指的是map、filter或reduce的使用。此外，表理解也属于函数式编程的范畴。代码 def count_individual_words(word_list): word_count = {x: y.count(x) for y in word_list for x in y.split()} return word_count tweets = ["I am a cat", "cat", "Who is a g

浏览 3提问于2017-02-21得票数 0

2回答

在字典中递增

python、duplicates

我看过一堆文章，基本上做了我正在做的事情，但不幸的是，我不确定为什么我总是得到不是我想要的输出。问题是，每当某个单词出现在我的excel文件中时，我都试图递增一个字典，但是一个单词的每个实例都被视为一个新词，就像我当前的代码一样。例如，" the“在我的文件中出现了大约50次，但输出只是在许多不同的行上列出了"the”，每个实例的计数为"1“。实际上，我希望"the“列出一次，计数为"50”。如有任何澄清，将不胜感激！下面是我的代码： import csv import string filename = "input.csv" out

浏览 0提问于2012-09-05得票数 1

回答已采纳

1回答

Python3 -文本文件中的增量编号

python、python-3.x

下面是文本文件，它的结构如下：word count product 5 order 4 tracking 1 这意味着在输入文档中找到单词product的时间为5。我有一个名为WordFrequency.py的脚本，用于查找单词以及它们在输入文件中的次数： import re from collections import Counter def count_words(file_path): with open("/Users/oliverbusk/Sites/Sandbox/storage/app/" + file_path, 'r', enco

浏览 0提问于2019-05-08得票数 2

回答已采纳

3回答

字频计数器

python、python-2.x

最近，我接受了一个自我评估问题，以评估我的Python在线课程的能力。问题是返回单词发生的频率，作为元组的一部分。在Python中实现一个函数count_words()，它以字符串word_string和数字number_of_words作为输入，并返回word_string中最常见的n个单词。返回值应该是一个元组列表-前n个单词与它们各自的计数()，(，)，配对，并按降序计数排序。您可以假设所有输入都是小写的，没有标点符号或其他字符(只有字母和单个分隔空格)。在打结的情况下(等数)，按字母顺序排列。例如：print count_words("this is an example s

浏览 0提问于2016-02-04得票数 3

回答已采纳

3回答

读取文本文件并计算一个单词重复了多少次。使用.split函数。现在想让它忽略区分大小写的

python、split、case-sensitive

到目前为止得到了所需的输出。程序提示用户搜索一个单词。用户输入它，程序读取文件并给出输出。 ‘'ashwin: 2’ 现在我想让它忽略大小写敏感。例如，"Ashwin“和"ashwin”都将返回2，因为它在文本文件中包含两个ashwin。 def word_count(): file = "test.txt" word = input("Enter word to be searched:") k = 0 with open(file, 'r') as f: for l

浏览 0提问于2018-11-18得票数 0

回答已采纳

5回答

Python:另一个列表中字典的出现次数

python、word-count、graphlab、sframe

我正在尝试根据感兴趣的单词的子集来计算单词在字典列中存在的次数。首先我导入我的数据 products = graphlab.SFrame('amazon_baby.gl/') products['word_count'] = graphlab.text_analytics.count_words(products['review']) products.head(5) 数据可以在这里找到：然后创建我感兴趣的单词列表： words = ['awesome', 'great', 'fantastic'

浏览 1提问于2016-06-04得票数 0

2回答

用重复词计数Regex模式

python、regex

我试图编写一个python函数来计算字符串中的特定单词。当我想要计数的单词连续重复多次时，我的regex模式就无法工作。这一模式似乎运行良好，否则。这是我的功能 import re def word_count(word, text): return len(re.findall('(^|\s|\b)'+re.escape(word)+'(\,|\s|\b|\.|$)', text, re.IGNORECASE)) 当我用随机字符串测试它时 >>> word_count('Linux', "Linux, W

浏览 4提问于2020-03-20得票数 1

回答已采纳

2回答

在Angularjs中创建一个字云生成器

angularjs

我以前创建了一个非常简单的Wordcloud生成器，现在我想将它移植到angularjs中，并遵循最佳实践。这就是我以前在jquery项目中所做的：我有一个包含文本选择素的变量： var text = "Lorem ipsum dolor sit amet, consectetur adipiscing elit........Suspendisse fermentum venenatis tincidunt."; 然后，我将文本变量拆分为一个单词数组。 var word_list = text.split(/\W+/); 下面是我填充云的地方。我将单词的大小随机分配给Ma

浏览 3提问于2014-12-30得票数 0

回答已采纳

4回答

Python复制词

python、python-3.x、count、duplicates

我有一个问题，我必须在Python (v3.4.1)中计算重复的单词，并将它们放在一个句子中。我用了计数器，但我不知道如何按下面的顺序得到输出。输入如下： mysentence = As far as the laws of mathematics refer to reality they are not certain as far as they are certain they do not refer to reality 我把这个列成一张清单，然后把它分类输出应该如下所示 "As" is repeated 1 time. "are" is repe

浏览 3提问于2014-09-11得票数 6

回答已采纳

4回答

数一个角色在电影剧本中说的话

python、python-3.x、text、count、movie

我已经设法在一些帮助下发现了说出来的话。现在我要找的是一个被选中的人所说的话。所以我可以输入MIA，得到她在电影中说的每一个字： name = input("Enter name:") wordsspoken(script, name) name1 = input("Enter another name:") wordsspoken(script, name1) 然后我就能数出单词了。这就是电影剧本的样子 An awkward beat. They pass a wooden SALOON -- where a WESTERN is being shot.

浏览 1提问于2018-04-17得票数 1

回答已采纳

3回答

Word计数器循环一直在Python中加载。

python、python-3.x、pandas、list、nlp

我有一个DataFrame comments，如下所示。我想为Counter字段做一个单词的Text。我已经列出了一个UserId的列表，它需要计算单词，这些UserId存储在gold_users中。但是创建Counter的循环一直在加载。请帮我把这个修好。注释--这只是dataframe的一部分，原来有很多行。 Id| Text | UserId 6| Before the 2006 course, there was Allen Knutso... | 3 8|

浏览 0提问于2020-07-05得票数 0

1回答

如何计算一个单词在Python中某个特定类别的列中重复了多少次？

python、pandas、dataframe

所以我被困在这个问题上已经好几天了，如果有人能帮我，我会很感激的。我有一个dataframe，列是： # Column Non-Null Count Dtype --- ------ -------------- ----- 0 PhraseId 93636 non-null int64 1 SentenceId 93636 non-null int64 2 Phrase 93636 non-null object 3 Sentiment 93636 non-null int64 情绪从0

浏览 1提问于2021-05-12得票数 2

5回答

python字计数器w/排序频率

python、counter、frequency

我试图读取一个文本文件，然后打印出所有的单词，其中最常见的单词在顶部，随着列表的下降而减少。我有Python3.3.2。 def wordCounter(thing): # Open a file file = open(thing, "r+") newWords={} for words in file.read().split(): if words not in newWords: newWords[words] = 1 else: newWords[words] +=

浏览 15提问于2015-12-05得票数 1

回答已采纳

3回答

基于条件创建并填充DataFrame列

python、pandas

我有一个DataFrame，我需要创建一个新列，并根据在文本中找到的单词列表中的单词数来填充值。我正在尝试下面的代码： df = pd.DataFrame({'item': ['a1', 'a2', 'a3'], 'text': ['water, rainbow', 'blue, red, white','country,school,magic']}) list_of_words = ['water', '

浏览 26提问于2021-05-12得票数 1

回答已采纳

2回答

将字符串的开始和结束索引中的每个单词映射到字典

python、dictionary、nested-lists

我试图找到索引范围(开始索引和结束索引，空格被省略，索引从1开始，以提高人的可读性)。一个字符串中的每个单词。我认为最好的方法是做一个列表，其中每个嵌套列表包含单词和开始和结束索引的列表。从一个示例字符串中，我得到了以下列表： text = "i have a list of lists that contain a word and there indices my method works except with repeated words like of or a or the or it" 产量： boundaries_list=[['i', [1,

浏览 8提问于2022-11-07得票数 0

回答已采纳

4回答

编写一个从字符串打印hapax的程序

python、python-3.x

hapax是一个只在字符串中出现一次的单词。我的代码起作用了。首先，它得到了第一个hapax，然后，我修改了我插入的字符串，它得到了最后一个，第一个hapax，但是没有第二个hapax.这是我当前的代码 def hapax(stringz): w = '' l = stringz.split() for x in l: w = '' l.remove(x) for y in l: w += y if w.find(x) == -1:

浏览 4提问于2015-03-23得票数 1

回答已采纳

4回答

使用python检索文档中包含2个或更多字母的单词总数

python、algorithm、iteration、defaultdict

我有一个小的Python脚本，它计算.txt文档中最常用的10个单词、最不常用的10个单词和单词总数。根据作业，一个单词被定义为两个或两个以上的字母。我有10个最常用的单词和10个最不常用的单词，但是当我尝试打印文档中的单词总数时，它会打印所有单词的总数，包括单个字母的单词(如"a")。如何才能得到单词总数，以便只计算包含2个字母或更多字母的单词？下面是我的脚本： from string import * from collections import defaultdict from operator import itemgetter import re number

浏览 5提问于2012-09-19得票数 0

回答已采纳

2回答

试图通过dict.values()对dict进行排序

python、dictionary

任务是读取一个文件，创建一个dict并打印出单词及其计数器值。下面是工作正常的代码，但我似乎无法理解为什么在print_words()函数中，我不能将排序更改为： words = sorted(word_count.values()) 然后打印单词及其计数器，按计数器排序(该单词在word_count[]中的次数)。 def word_count_dict(filename): word_count = {} input_file = open(filename, 'r') for line in input_file: words = line.spli

浏览 1提问于2018-02-01得票数 0

回答已采纳

2回答

使用nltk的python对称字矩阵

python、nltk、text-mining

我正在尝试从一个文本文档创建一个对称的单词矩阵。例如: text = "Barbara很好。Barbara和Benny是朋友。Benny很坏。“ 我已经使用nltk对文本文档进行了标记。现在我想计算一下其他单词在同一句话中出现的次数。根据上面的文本，我想创建下面的矩阵： Barbara good friends Benny bad Barbara 2 1 1 1 0 good 1 1 0 0 0 friends 1 0 1 1 0 Benny 1 0 1 2 1 bad 0

浏览 0提问于2013-07-04得票数 6

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用def函数和defaultdict统计特定单词

相关·内容

Python字典值被分配到不同的键中

用函数式编程计算单词出现的次数

在字典中递增

Python3 -文本文件中的增量编号

字频计数器

读取文本文件并计算一个单词重复了多少次。使用.split函数。现在想让它忽略区分大小写的

Python:另一个列表中字典的出现次数

用重复词计数Regex模式

在Angularjs中创建一个字云生成器

Python复制词

数一个角色在电影剧本中说的话

Word计数器循环一直在Python中加载。

如何计算一个单词在Python中某个特定类别的列中重复了多少次？

python字计数器w/排序频率

基于条件创建并填充DataFrame列

将字符串的开始和结束索引中的每个单词映射到字典

编写一个从字符串打印hapax的程序

使用python检索文档中包含2个或更多字母的单词总数

试图通过dict.values()对dict进行排序

使用nltk的python对称字矩阵

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐