用Python做简易词云

最近突发奇想,想做个词云玩玩,这算是Python的一个很初级的应用,虽然很初级,依然免不了会出现各种bug~

使用工具:

  • Anaconda:一个开源的用于Python科学计算的发行版本
  • jieba:一个Python第三方库,用于中文分词。
  • wordcloud:一个Python的第三方库,用于生成词云。
  • 一份中文字体文件:simsun.ttf
  • 若干咪蒙文章资源:作为语料数据。
  • 一张白底图片:作为词云的蒙版。

实验效果:

我用我的微信头像当做蒙版:

然后生成的词云长这个样子:

安装实验环境:

  • 安装Anaconda 下载地址:https://www.anaconda.com/download/
  • 安装jieba、wordcloud 下载地址 :https://www.lfd.uci.edu/~gohlke/pythonlibs/
  • 中文字体文件simsun.ttf和万篇咪蒙文章资源我放在了云盘里,需要的话,这里链接:https://pan.baidu.com/s/1ZgOsdD5DPGYDUFUAd3Vzzw 密码:w94g

提示:需要将simsun.ttf文件和文章资源放在同一文件目录里,而且文章资源(数据源)应为UTF-8编码格式。并在此文件目录通过Anaconda Prompt打开jupyter notebook。关于Anaonda的安装和使用,参考这篇文章:https://www.jianshu.com/p/772740d57576

完整代码:

"""
使用蒙版图片和wordcloud生成任意形状的词云
"""

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import jieba

from wordcloud import WordCloud

# Windows下面文件路径要使用双斜线,第一个斜线表示转义
# 指明语料数据和蒙版图片的文件路径
d = path.dirname("D:\\python\\")

# 读取语料数据文件# 含有中文的文件要使用“rb”以二进制格式读取,否则会出现编码错误
text = open(path.join(d, 'mimeng1.txt'), "rb").read()

# 使用jieba进行中文分词
mytext = " ".join(jieba.cut(text))

# 读取蒙版图片
alice_mask = np.array(Image.open(path.join(d, "touxiang.jpg")))

# 暂定最大词汇数为1000000
wc = WordCloud(font_path="simsun.ttf", background_color="white", max_words=1000000, mask=alice_mask,
               stopwords=stopwords, contour_width=3, contour_color="steelblue")


# 生成词云
wc.generate(mytext)

# 存储到文件
wc.to_file(path.join(d, "meng.png"))

# 展示词云结果
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.figure()
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis("off")
plt.show()

代码的细节在注释里都有详细的说明。

当然,同样的数据源,还可以做成很多样式的词云,比如下面这个:

还有这样的:

总结:任何一件简单的事,不自己亲自去做一遍,永远不知道会遇到多少bug。

参考资料: https://github.com/amueller/word_cloud https://www.jianshu.com/p/721190534061

END

推荐阅读:

推荐几个在线学习编程的网站

我不想和你说话,并向你扔了一堆数学书

本文分享自微信公众号 - 一个爱吃西瓜的程序员(youcoding),作者:爱吃西瓜的番茄酱

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学习SQL【6】-复杂查询

    到目前为止,我们学习了表的创建、查询和更新等数据库的基本操作方法。现在我们将会在这些基本方法的基础上,学习一些实际应用的方法。 一:视图 1:视图和表 表中存...

    爱吃西瓜的番茄酱
  • Python基础学习-用户输入和while循环

    一:函数input()的工作原理: 函数input()让程序暂停运行,等待用户输入一些文本。 获取用户输入后,Python将其存储在一个变量中,以...

    爱吃西瓜的番茄酱
  • 学习SQL【8】-谓词和CASE表达式

    谓词 什么是谓词 谓词就是返回值为真值的函数。对于通常的函数来说,返回值有可能是数字、字符串和日期等,但是谓词的返回值全部是真值。这也是谓词和函数的最大区别。 ...

    爱吃西瓜的番茄酱
  • Java调用微信扫一扫

    公司公众号二次开发需要调用微信扫一扫接口,在网上查了很多相关资料感觉也不是特别的全,在此特意整理一遍资料,供给自己和大家参考,如有相关缺陷请大家指出。

    gang_luo
  • [android] 网络链接类型和渠道

    2.2.1 wap的方式,中国特色,首先会连接电信运营商代理拦截10.0.0.172,HttpUrlConnection会不稳定

    陶士涵
  • 【猫狗数据集】读取数据集的第二种方式

    链接:https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw 提取码:2xq4

    绝命生
  • Elasticsearch(七)——复合查询

    将查询内部的结果文档得分都设定为1或者boost的值,多用于结合bool查询实现自定义得分

    羊羽shine
  • 【春招必看】一位老学长的真实互联网校招求职心路历程~

    链接:https://www.nowcoder.com/discuss/154934?type=2&order=3&pos=15&page=1

    牛客网
  • vue.js引入外部CSS样式和外部JS文件的方法

    学习Vue.js动画时,需要引入一个animate.css,如何全局引入外部文件呢?

    honey缘木鱼
  • uniapp获取接口数据,渲染在picker选择器里面

    2:选择一个比较好用的ui框架 引入之后,很多代码样式都不需要自己一点点的写了,需要什么样的,直接在UI库里面复制黏贴就行 ,省了很多时间哦,不许呀考虑写出来...

    王小婷

扫码关注云+社区

领取腾讯云代金券