专栏首页算法与编程之美Python|统计文本词汇出现次数

Python|统计文本词汇出现次数

问题描述

有时在遇到一个文本需要统计文本内词汇的次数的时候,可以用一个简单的python程序来实现。

解决方案

首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。

图 1 txt文件内容

再通过open和read函数来读取文件:

open_file=open("text.txt")

file_txt=open_file.read()

然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。

代码示例:

def wordcount(readtxt):

    readlist = readtxt.split()

    dict1={}

    for every_world in readlist:

        if every_world in dict1:

            dict1[every_world] += 1

        else:

            dict1[every_world] = 1

    return dict1

print(wordcount(file_txt))

这里加了def函数把该程序封装成一个函数。

最后输出得到词汇出现的字典:

图 2 形成字典

本文分享自微信公众号 - 算法与编程之美(algo_coding),作者:李和龙

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ​数据库|传统的集合运算

    关系R和关系5具有相同的目n(即两个关系都有n个属性),且相应的属性取自同一个域,则关系R与关系S的并由属于R或属于S的元组组成,其结果关系仍为n目关系。

    算法与编程之美
  • 开发|使用war包部署在Tomcat中运行

    简单来说,war包是JavaWeb程序打的包,war包里面包括写的代码编译成的class文件,依赖的包,配置文件,所有的网站页面,包括html,jsp等等。一个...

    算法与编程之美
  • 聊一聊|如何准备python程序设计计算机二级考试

    Python作为编程语言,在近几年大火起来,18年便被列为计算机二级考试科目之一,在计算机二级考试上。很多同学应该会选择python程序设计进行报考,下面分享一...

    算法与编程之美
  • Python中如何统计文本词汇出现的次数?

    有时在遇到一个文本需要统计文本内词汇的次数的时候,可以用一个简单的python程序来实现。

    小小科
  • css选择器中:first-child与:first-of-type的区别

    http://www.cnblogs.com/2050/p/3569509.html

    bear_fish
  • Android native进程间通信实例-binder篇之——解决实际问题inputreader内建类清楚缓存

    我在实际开发中,遇到一个问题,在电容屏驱动中没有发送input_sync 给上层,导致电容屏有的数据缓存在inputreader 中,会导致系统一系列奇怪问题发...

    啊源股
  • 对话Google全球VP Jay Yagnik:TensorFlow2.0会强化可控性

    Jay Yagnik,一个还不让中国朋友熟悉的名字,但未来在Google业务中,你会越来越多听到他。

    量子位
  • Nginx code 状态码说明

    最近了解下Nginx的Code状态码,在此简单总结下。一个http请求处理流程: ? 一个普通的http请求处理流程,如上图所示: A -> client端发起...

    洗尽了浮华
  • Nginx code 状态码说明

    一个普通的http请求处理流程,如上图所示: A -> client端发起请求给nginx B -> nginx处理后,将请求转发到uwsgi,并等待结果 C ...

    后端技术探索
  • python入门——python数据类型

    在python中,列表用方括号[ ],来表示列表。作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。

    py3study

扫码关注云+社区

领取腾讯云代金券