前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你做一个词云生成(精讲每一步,附带完整源代码)

手把手教你做一个词云生成(精讲每一步,附带完整源代码)

作者头像
川川菜鸟
发布2021-10-18 11:22:45
8860
发布2021-10-18 11:22:45
举报
文章被收录于专栏:python全栈教程专栏

川川最近遇到一些同学问我词云生成问题,于是我就在此统一回答一下 言归正传: 效果看看:

在这里插入图片描述
在这里插入图片描述

第一部分,导入模块:

代码语言:javascript
复制
import numpy as np
from PIL import Image
import wordcloud
import jieba

第二部分设置一个停用词汇,放在前面,在后面用来分词用的:

代码语言:javascript
复制
stopword='stop_words.txt'

第三部分,我就假装自己还是个初学者,做个函数读取文档:

代码语言:javascript
复制
def func1():
	file = open('jingji.txt',encoding="utf-8")
	result = file.read()
	file.close()
	return result

这里我就稍微解读一下: open就是打开文档,encoding呢就是要编译方式,防止乱码, 然后就一个read函数读取文档,打开了文档读取了就关闭吧, 所以就一个close函数,最后一个return返回值,懂了吧?

第四部分,分词生成词云:

代码语言:javascript
复制
def func2(words):
	wordList = jieba.lcut(words)
	mk = np.array(Image.open("中国地图.jpg"))
	c = wordcloud.WordCloud(scale=4,stopwords=stopword,mask=mk,\
		font_path="msyh.ttf")
	c.generate(" ".join(wordList))
	c.to_file('./hh.jpg')

还是解读一下: jieba.lcut(words)就是用来返回中文文本words分词后的列表变量,words就是中文文本字符串 np.array就是将数据转化为矩阵,这里呢就是把图片转换为矩阵 核心重点东西来了: 配置词云图片分为三步: 1.配置对象: 对象名=wordcloud.WordCloud()

2.加载词云文本:对象名.generate(txt)

其中txt的内容需要以空格来分隔单词!并且对于英文单词而言,如果单词长度为1-2,系统会自动过滤!

还有一些对图片配置的参数:

1.对图片的大小设置 对象名.wordcloud.WordCloud(width=800,height=800) 系统默认宽400像素,高200像素

2.指定词云中字体的最小和最大字号 对象名.wordcloud.WordCloud(min_font_size=10,max_font_size=20) 系统默认最小为4号

3.指定词云中字体字号的步进间隔,默认为1 对象名.wordcloud.WordCloud(font_step=2) 因为系统会根据词出现的次数来定词的大小,次数多的和次数少的之间的字号差距就是步进间隔。

4.指定字体文件的路径,默认为None 下面所有的运用方法和前三条都是一样的

font_path=“msyh.ttc”(微软雅黑)

5.指定词云显示的最大单词数量,默认为200 max_words=20

6.指定词云的排除次列表,即不显示的单词列表 stop_words={" “,” “,” "} 采用集合的形式

7.指定词云图片的背景颜色,默认为黑色 background_color=“white”

8.指定词云的形状,默认为长方形,需要引用imread()函数 举个例子:

代码语言:javascript
复制
import wordcloud
import imageio
mk=imageio.imread("D:/1.png")
c=wordcloud.WordCloud(font_path="msyh.ttc",background_color="white",mask=mk,min_font_size=5)
c.generate("无法哇给我GW给我QQ挨个嘎尔和埃格哈尔和")
c.to_file("D:/1.png")

前面一部分的词云配置讲很清楚了!! 讲解下后面的部分: c,generate(x),x就是我们要需要分词的文档,上面的例子呢我就是自己添加的内容,不是文档,读取文档看我第四部分,这只是例子讲解 c.to_file()就是保存为图片到某个路径,可以参考我第四部分,我觉得更好,直接保存在当个文件夹。

好了,学会了吗? 上全部源代码:

代码语言:javascript
复制
import numpy as np
from PIL import Image
import wordcloud
import jieba

stopword='stop_words.txt'

def func1():
	file = open('jingji.txt',encoding="utf-8")
	result = file.read()
	file.close()
	return result

def func2(words):
	wordList = jieba.lcut(words)
	mk = np.array(Image.open("中国地图.jpg"))
	c = wordcloud.WordCloud(scale=4,stopwords=stopword,mask=mk,\
		font_path="msyh.ttf")
	c.generate(" ".join(wordList))
	c.to_file('./hh.jpg')
words = func1()
func2(words)

好了,川川讲很精细了,有问题留言吧!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/12/24 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云图数据可视化
腾讯云图数据可视化(Tencent Cloud Visualization) 是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。精心预设多种行业模板,极致展示数据魅力。采用拖拽式自由布局,全图形化编辑,快速可视化制作。腾讯云图数据可视化支持多种数据来源配置,支持数据实时同步更新,同时基于 Web 页面渲染,可灵活投屏多种屏幕终端。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档