首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何制作“文字云”效果呢?

想起来2018年已过去近半,想起来年初总结挖下的坑还基本没填,现在开始第一更,目标是先把去年的坑填完吧。

什么是文字云呢?它的英文其实是words cloud,是可视化的一种表现形式,一般用来直观展示大段文字中词语出现的频率。

那其实涉及到两个问题,一个是一大段的文字怎么分成相对独立的一个个单词?另一个是如何统计每个词语出现的频率并依据频率来可视化呈现?

先说结论:

文字云可视化:https://wordart.com

在线分词:http://www.78901.net/participle/

01

文字云可视化

其实有很多在线的网站可以实现“文字云”的效果,最初接触的时候我用的是tagxedo这个网站(http://www.tagxedo.com/app.html),大概在2013年左右,最初还不需要翻墙就可以登上,特点是支持中文,但现在这个网站需要科学上网才能使用,所以不推荐再用。

下面是之前用tagxedo做的一些案例:

比如抠图后结合项目理念用来作为封面——

比如利用关键词做成鸟瞰图的衬底做封面——

没有tagxedo后其实有更好的选择,就是上面提到的wordart网站(完整网址是:https://wordart.com),可以直接访问,不需要翻墙。

制作步骤也很简单,跟tagxedo的逻辑是一样的,页面左侧分为words、shapes、fonts、layout和style,右侧是文字云生成界面,基本上就是“插入文字——可视化——自定义样式”三步。

words——插入需要生成为文字云的文字,值得提醒的是wordart网站支持导入csv格式的文件,那么有什么优势呢?这样说吧,excel格式的表格xls最大支持6553行,xlsx最大支持1048576行,而csv格式其实和txt一样,是属于纯文本文件,是没有行数限制的。

shapes——不用多说,支持添加自定义的形状文件,建议做成黑白对比的png图导入。

fonts——字体,如果要生成中文的话需要自己上传中文字体,不然默认都是英文字体,导入中文是生成不了的。

layout——输出,建议导出png格式。

style——主题样式,可以选择各种配色,多试两次就能了解。

02

中文分词

为什么要分词呢?

其实也很好理解,不分词的话全都是一段一段的话,无法统计单个词语出现的频率,分词就是为了更好地统计不同的词语。

在线分词网站其实不止http://www.78901.net/participle/,之外还有很多很多,基本上都大同小异,输入一段文本后会自动生成分词完的结果。

导入到wordart网站的words里面后可以看到各个词语的词频。

然后会自动根据词频生成文字云的效果,如下:

其实操作上不需要讲太多,网上也很多教程,我觉得更重要的是摸索一些应用方向,现在多集中在:问卷调查中主观题目的可视化展示、封面或专题图的制作这两个方面,但我认为应该能够有更多发挥的空间。

比如可以通过网络爬取类似大众点评的店铺点评数据,将其存储成csv格式文件导入并迅速生成该店铺的评论文字云,可以很直观地体现出点评的关注点集中在哪里。

更多的是需要发挥自己的想象力。

暂时介绍到这里,希望能够帮助到需要的人,以上。

P.S.小小期待下端午节的十年城规聚会。

欢迎关注公众号:平纸杂货铺

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180604G01Q4M00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券