用Python做简易词云

最近突发奇想,想做个词云玩玩,这算是Python的一个很初级的应用,虽然很初级,依然免不了会出现各种bug~

使用工具:

  • Anaconda:一个开源的用于Python科学计算的发行版本
  • jieba:一个Python第三方库,用于中文分词。
  • wordcloud:一个Python的第三方库,用于生成词云。
  • 一份中文字体文件:simsun.ttf
  • 若干咪蒙文章资源:作为语料数据。
  • 一张白底图片:作为词云的蒙版。

实验效果:

我用我的微信头像当做蒙版:

然后生成的词云长这个样子:

安装实验环境:

  • 安装Anaconda 下载地址:https://www.anaconda.com/download/
  • 安装jieba、wordcloud 下载地址 :https://www.lfd.uci.edu/~gohlke/pythonlibs/
  • 中文字体文件simsun.ttf和万篇咪蒙文章资源我放在了云盘里,需要的话,这里链接:https://pan.baidu.com/s/1ZgOsdD5DPGYDUFUAd3Vzzw 密码:w94g

提示:需要将simsun.ttf文件和文章资源放在同一文件目录里,而且文章资源(数据源)应为UTF-8编码格式。并在此文件目录通过Anaconda Prompt打开jupyter notebook。关于Anaonda的安装和使用,参考这篇文章:https://www.jianshu.com/p/772740d57576

完整代码:

"""
使用蒙版图片和wordcloud生成任意形状的词云
"""

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba

from wordcloud import WordCloud

# Windows下面文件路径要使用双斜线,第一个斜线表示转义
# 指明语料数据和蒙版图片的文件路径
d = path.dirname("D:\\python\\")

# 读取语料数据文件# 含有中文的文件要使用“rb”以二进制格式读取,否则会出现编码错误
text = open(path.join(d, 'mimeng1.txt'), "rb").read()

# 使用jieba进行中文分词
mytext = " ".join(jieba.cut(text))

# 读取蒙版图片
alice_mask = np.array(Image.open(path.join(d, "touxiang.jpg")))

# 暂定最大词汇数为1000000
wc = WordCloud(font_path="simsun.ttf", background_color="white", max_words=1000000, mask=alice_mask,
               stopwords=stopwords, contour_width=3, contour_color="steelblue")


# 生成词云
wc.generate(mytext)

# 存储到文件
wc.to_file(path.join(d, "meng.png"))

# 展示词云结果
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis("off")
plt.show()

代码的细节在注释里都有详细的说明。

当然,同样的数据源,还可以做成很多样式的词云,比如下面这个:

还有这样的:

总结:任何一件简单的事,不自己亲自去做一遍,永远不知道会遇到多少bug。

参考资料: https://github.com/amueller/word_cloud https://www.jianshu.com/p/721190534061

END

推荐阅读:

推荐几个在线学习编程的网站

我不想和你说话,并向你扔了一堆数学书

原文发布于微信公众号 - 一个爱吃西瓜的程序员(youcoding)

原文发表时间:2018-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WeTest质量开放平台团队的专栏

深度了解Android 7.0 ,你准备好了吗?

2016年8月22日,谷歌正式推送Android 7.0 Nougat(牛轧糖)正式版,首发推送了多款Nexus设备。除了修复常规BUG,Android 7.0...

963
来自专栏玉树芝兰

如何在 GPU 深度学习云服务里,使用自己的数据集?

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

1992
来自专栏Laoqi's Linux运维专列

常见的负载均衡LVS、Nginx和HAProxy

3985
来自专栏云时之间

基于百度翻译的简单爬虫翻译-- coding:utf-8 --访问网址模拟浏览器创建文件夹用一个text文件保存,文件名用单词名字

因为最近有数据需求,自己写了一个简单的小爬虫,但是这是第一版还是比较简陋,慢慢更新吧. ---- 能够实现的功能是查询英语单词和中文单词并且能够找出读音来,希望...

3227

Ray:AI的分布式系统

随着机器学习的算法和技术的进步,越来越多的机器学习应用程序需要多台机器,并且必须利用并行性。但是,在集群上进行机器学习的基础设施仍然是特设的。尽管针对特定用例(...

3566
来自专栏开源FPGA

基于FPGA的Uart接收图像数据至VGA显示

系统框图 ?   前面我们设计了基于FPGA的静态图片显示,并对一幅彩色图片提取了灰度,学习了RGB转Gray算法。这是基于一幅静态图片的,那么后面我们要怎么模...

2739
来自专栏WeTest质量开放平台团队的专栏

深度了解Android 7.0 ,你准备好了吗?

8月22日,谷歌正式推送Android 7.0 Nougat(牛轧糖)正式版,首发推送了多款Nexus设备。除了修复常规BUG,Android 7.0还新增了分...

8631
来自专栏Java架构师学习

京东架构师的showtime京东个性化推荐系统实战

推荐系统核心任务是排序,从线上服务角度看,就是将数据从给定集合中数据选择出来,选出后根据一定规则策略方法进行排序。 线上服务要根据一定规则进行架构设计,架...

4396
来自专栏玉树芝兰

如何用VOSviewer分析CNKI数据?

学会了用VOSviewer分析Web of Science数据后,想不想知道如何用它分析中文文献?本文用CNKI数据做样例,一步步教你实现步骤。

1823
来自专栏phodal

前后端分离之领域模型的思考

我们总以为前后端分离之后,我们就可以写出更干净的View。然而,现实并没有那么美好。因为在我们的View层里,不仅仅只有Template,还有Controlle...

1935

扫码关注云+社区

领取腾讯云代金券