前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python开发_re和counter

python开发_re和counter

作者头像
Hongten
发布2018-09-13 12:31:31
5130
发布2018-09-13 12:31:31
举报
文章被收录于专栏:Hongten

pythonrecounter的结合,可以实现以下的功能:

1.获取字符串或者文件中的单词组

2.对单词组进行统计

下面是我做的demo

运行效果:

=============================================

代码部分:

=============================================

代码语言:javascript
复制
 1 #python re and counter object
 2 '''
 3 读取一个文件,获取到该文件中的所有单词组,然后对该单词组进行个数统计,也可以根据
 4 条件统计,如:该单词组中出现最多的前number个单词
 5 '''
 6 import os
 7 import re
 8 from collections import Counter
 9 
10 def get_words(path):
11     '''读取一个文件中的内容,返回该文件中的所有单词'''
12     if os.path.exists(path):
13         return re.findall(r'\w+', open(path).read().lower())
14     else:
15         print('the path [{}] is not exist!'.format(path))
16 
17 def get_most_common_words(words, number):
18     '''
19     如果<code>number > 0</code>,则返回该单词组中出现最多的前<code>number</code>个单词
20     否则,返回该单词组中所有统计情况
21     '''
22     if number > 0:
23         return Counter(words).most_common(number)
24     else:
25         return Counter(words)
26     
27 def main():
28     temp_path = 'c:\\temp.txt'
29     number = 5
30     words = get_words(temp_path)
31     print(words)
32     print('#' * 50)
33     cnt = get_most_common_words(words, -1)
34     print(cnt)
35     print('#' * 50)
36     cnt = get_most_common_words(words, number)
37     print(cnt)
38 
39 if __name__ == '__main__':
40     main()
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2013-08-15 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档