前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【编程课堂】词云 wordcloud

【编程课堂】词云 wordcloud

作者头像
Crossin先生
发布2018-04-17 11:08:23
2K0
发布2018-04-17 11:08:23
举报
文章被收录于专栏:Crossin的编程教室

本周为大家带来炫酷好玩的 wordcloud 词云构造库。

使用 wordcloud 可以做出这样的图片:

还可以做出这样的:

接下来,我们来学习如何制作属于自己的词云图。

本来想说一句,安装过程不表,直接进入正题,可是在编程教室的QQ群和微信群中都有人遇到 wordcloud 安装失败的问题。

所以在此简单提一下安装过程:

当然最直接的是 pip

代码语言:javascript
复制
pip install wordcloud

但很多同学会发现直接 pip 是会报错的,所以这里提供第二种安装方式:

下载 whl 手动安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

静静等待页面加载完成,然后选择适合自己 Pythonwordcloud 版本,最后运行以下命令。filepath 替换为你的安装文件完整路径。

代码语言:javascript
复制
pip install filepath\wordcloud-1.2.1-cp35-cp35m-win_amd64.whl

wordcloud 在安装过程中会自动安装其依赖的库。

基本的用法

我们读入一本英文小说,取其中的词汇生成一张词云图

代码语言:javascript
复制
# 导入 wordcloud 模块和 matplotlib 模块
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 读入一个txt文件
text = open('Jane Eyre.txt','r').read()
# 生成词云
wordcloud = WordCloud().generate(text)
# 显示词云图片
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
# 保存图片
wordcloud.to_file('test.jpg')

结果如图所示

运行脚本之后就可以看到生成的图片了,是不是很简单。本文主要讲 wordcloud。代码中涉及到的 matplotlib 就不做更详细解释。

除了直接读入文本生成词云,也可以使用字典格式的词频作为输入

代码语言:javascript
复制
# 读入一组词频字典文件
text_dict = {
    'you': 2993,
    'and': 6625,
    'in': 2767,
    'was': 2525,
    'the': 7845,
}
wordcloud = WordCloud().generate_from_frequencies(text_dict)

还可以将词云填充到指定的形状之中。为达到填充指定形状的效果,需要使用 png 格式的图片。

代码语言:javascript
复制
# 读入图片
from scipy.misc import imread
bg_pic = imread('Anne_Hathaway.png')
# 配置词云参数
wc = WordCloud(
    # 设置字体
    font_path = 'BeaverScratches.ttf',
    # 设置背景色
    background_color='white',
    # 允许最大词汇
    max_words=200,
    # 词云形状
    mask=bg_pic,
    # 最大号字体
    max_font_size=100,
)
# 生成词云
wc.generate(text)
# 保存图片
wc.to_file('word.jpg')

最后的效果如下

还可以结合 jieba分词,实现用中文填充的词云图(如果不通过分词,无法直接生成正确的中文词云)。使用中文填充时一定得指定中文的字体,否则会出现乱码。如果报错找不到字体,就复制一个中文字体文件放在代码目录下。

代码语言:javascript
复制
#-*- coding:utf-8 -*-
from scipy.misc import imread
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from collections import Counter
# 读入 西游记 txt 文件,windows 下过滤编码错误
text = open('西游记.txt',encoding='utf-8',errors='ignore').read()
# 使用 jieba 分词
text_jieba = list(jieba.cut(text))
# 使用 counter 做词频统计,选取出现频率前 100 的词汇
c = Counter(text_jieba)
common_c = c.most_common(100)
# 读入图片
bg_pic = imread('Anne_Hathaway.png')
# 配置词云参数
wc = WordCloud(
    # 设置字体
    font_path = '李旭科书法1.4.ttf',
    # 设置背景色
    background_color='white',
    # 允许最大词汇
    max_words=200,
    # 词云形状
    mask=bg_pic,
    # 最大号字体
    max_font_size=100,
)
# 生成词云
wc.generate_from_frequencies(dict(common_c))
# 生成图片并显示
plt.figure()
plt.imshow(wc)
plt.axis('off')
plt.show()
# 保存图片
wc.to_file('anne.jpg')

最终的结果:

关于 wordcloud 的一些基本的常用的方法就在这里。想了解更多特性的同学,可以访问官方网站: https://amueller.github.io/word_cloud/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Crossin的编程教室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本的用法
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档