专栏首页北京马哥教育Python中如何统计文本词汇出现的次数?

Python中如何统计文本词汇出现的次数?

问题描述:

有时在遇到一个文本需要统计文本内词汇的次数的时候,可以用一个简单的python程序来实现。

解决方案:

首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程序,所以要考虑如何将文件打开而不是采用复制粘贴的方式。这时就要用到open()的方式来打开文档,然后通过read()读取其中内容,再将词汇作为key,出现次数作为values存入字典。

图 1 txt文件内容

再通过open和read函数来读取文件:

open_file=open("text.txt")

file_txt=open_file.read()

然后再创建一个空字典,将所有出现的每个词汇作为key保存到字典中,对文本从开始到结束,循环处理每个词汇,并将词汇设置为一个字典的key,将其value设置为1,如果已经存在该词汇的key,说明该词汇已经使用过,就将value累积加1。

代码示例:

def wordcount(readtxt):

readlist = readtxt.split()

dict1={}

for every_world in readlist:

if every_world in dict1:

dict1[every_world] += 1

else:

dict1[every_world] = 1

return dict1

print(wordcount(file_txt))

这里加了def函数把该程序封装成一个函数。

最后输出得到词汇出现的字典:

图 2 形成字典

版权声明:转载文章来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜。

原文链接:https://www.cnblogs.com/woshijiuke/p/12803785.html

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 原创投稿 | 我们为什么要学习?

    乐乐快跑,马哥门徒,马哥教育原创作者联盟成员,专注于运维领域知识分享,强于知识体系构建。 ? 相信大家都渴望有所成就,当我们看着有成就人士在给大家讲述他的成就史...

    小小科
  • Python 多版本管理利器 pythonbrew

    欢迎阅读pythonbrew文档 在$HOME目录中管理python安装 简介 pythonbrew是受 perlbrew 和 rvm 启发,在用户的$HOME...

    小小科
  • Python 多版本管理利器 pythonbrew

    pythonbrew是受 perlbrew 和 rvm 启发,在用户的$HOME目录中进行python构建和安装自动化的项目。

    小小科
  • Python|统计文本词汇出现次数

    有时在遇到一个文本需要统计文本内词汇的次数的时候,可以用一个简单的python程序来实现。

    算法与编程之美
  • css选择器中:first-child与:first-of-type的区别

    http://www.cnblogs.com/2050/p/3569509.html

    bear_fish
  • Android native进程间通信实例-binder篇之——解决实际问题inputreader内建类清楚缓存

    我在实际开发中,遇到一个问题,在电容屏驱动中没有发送input_sync 给上层,导致电容屏有的数据缓存在inputreader 中,会导致系统一系列奇怪问题发...

    啊源股
  • 对话Google全球VP Jay Yagnik:TensorFlow2.0会强化可控性

    Jay Yagnik,一个还不让中国朋友熟悉的名字,但未来在Google业务中,你会越来越多听到他。

    量子位
  • Nginx code 状态码说明

    最近了解下Nginx的Code状态码,在此简单总结下。一个http请求处理流程: ? 一个普通的http请求处理流程,如上图所示: A -> client端发起...

    洗尽了浮华
  • Nginx code 状态码说明

    一个普通的http请求处理流程,如上图所示: A -> client端发起请求给nginx B -> nginx处理后,将请求转发到uwsgi,并等待结果 C ...

    后端技术探索
  • python入门——python数据类型

    在python中,列表用方括号[ ],来表示列表。作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。

    py3study

扫码关注云+社区

领取腾讯云代金券