词云可视化——中文分词与词云制作

随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍!

从网络分析、文本挖掘和意见挖掘角度看,主要解决以下内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络分析—中文语料和文本语义—R语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建模推荐算法—PMML模型与云端部署—API插件和接口程序——网络cytoscape可视化分析—Gephi动态可视化分析—Xcelsius仪表盘与Tableau可视化分析—RoambiAPP移动应用等;

在学习的过程中,我们成立了数艺智库和中国传媒大学数据可视化兴趣小组,每周活动一次。同学们都是80、90后的年轻人更有创新意识,学习也快,特别是小技巧和工具的掌握。我特别强调工具的应用,因为同学们都是文科背景,coding的能力不是我们的强项,学会和掌握最好最适合的现成软件工具是我的指导思想。

数据可视化兴趣小组的参与同学热情很高,特别是高年级同学传帮带,象谈和、德凯、若晨等同学成为小组的主要指导教师。这个工具也是同学们先找到了,在谈和同学讲解的过程中,我提出了创意要求。

特别是在数据可视化领域,根据兴趣不同学习了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi等,词云的制作也是大家感兴趣的。 下面来说说词云制作,个性化词云制作: 首先:个性化词云制作非常简单,瞬间就可以完成,甚至可以说是一种雕虫小技,在线制作。当然,我还是希望把研究和创作思路告诉大家:

1

第一:主题和意义

你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。 因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

2

第二:语料收集

个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:

1)标签关键词

2)关键词词频,词频决定关键词的显示大小。

语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。

3

第三:分词和关键词抽取

当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,例如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。

特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词(包括中文分词,体验效果:不同语料和多少,时好时坏)

4

第四:主题图片和个性化调整

分词和抽取关键词、词频完成后就可以制作个性化词云了,但有个前提,你需要收集与主题相关的个性化主题图片。这是一个艺术和技术融合的过程,原则上可以不用任何修饰就可以完成词云,但是如果图片不理想或者找不到你需要的构图,就需要自己抠图和PS一下了。当然软件自带有很多预设模板可以选择,比如:高跟鞋、烟斗、鸡鸭鱼动物、形状等。

5

第五:开始制作个性化词云

你已经看到了制作软件,Tagxedo词云 http://www.tagxedo.com 这是一个在线制作词云的工具,不用license。其实我不用讲,你应该能够学会的,操作非常简单,这里只是稍微介绍些中文词云要点:

  • 装载词和词频:load——可以直接提交语料自带分词和词频,也可以提交分词后的关键词和词频,用分隔符两列。
  • 选择形状或自定义图形:shape——从内置形状菜单选择或add Image选择自己的图形,这里主要选择自己的图形,就可以随心所欲了。图形可以直接用彩色jpg图片,可选择设定黑或白呈现词频;
  • 美好和调整色彩:Theme——根据自己的爱好,选择配色方案和突出强调,完全个性化爱好了;
  • 调整参数(重要):Layout Options——这步对中文很重要,主要是两个选项:1)Word选择Apply Nonlatin Heuristic设定No,这样就不会把中文分词(否则都是单词和内容分词了),2)Skip选择不需要的词或标签
  • 完成保存:Save——确认满意后就可以把个性化词云保存了,选择jpg或png格式和大小保存即可

6

第五:完成和传播

上面基本就完成了个性化词云操作,但往往有些细节要注意,比如把软件的水印剪裁掉,如何将一组词云拼接,增加必要的说明和意义解读,当然别忘了说是@沈浩老师 教的。哈哈(作者:沈浩)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

EasyPR--中文车牌识别系统 开发详解(开源)

1081
来自专栏新智元

谷歌发大招:搜索全面AI化,不用关键词就能轻松“撩书”

新智元报道 来源:Google Research 【新智元导读】昨天,谷歌发布“Talk to Books”(撩书??)和一个名为Semantris的游...

2805
来自专栏AI科技评论

动态 | Uber开源「神经演化」可视化工具VINE

AI 科技评论按:算力的提升可能会为旧的算法注入活力。近两年来,神经演化(Neuroevolution)的方法逐渐再次受到关注,包括 OpenAI、DeepMi...

3337
来自专栏量子位

用深度学习拯救手抖星人!Facebook详解全景照片修复技巧

陈桦 编译整理 量子位 报道 | 公众号 QbitAI 拍全景照片,重要的是手要稳,手要稳,手要稳……或者支个三角架。 ? 上面视频中这位小姐姐的水平,可以说是...

3067
来自专栏逍遥剑客的游戏开发

HDR&ToneMapping

1213
来自专栏大数据文摘

自带迷幻剂技能的小贴纸:忽悠神经网络,让它将一切都当作烤面包机!

1563
来自专栏华章科技

词云可视化:中文分词与词云制作

作者:沈浩老师(公众号ID:artofdata),中国传媒大学新闻学院教授,中国传媒大学调查统计研究所所长,大数据挖掘与社会计算实验室主任。

542
来自专栏鸿的学习笔记

如何在tweet上识别不实消息(一)

谣言通常被定义为其真实价值不可核实的状态。谣言可能传播错误信息(false infor-

851
来自专栏ATYUN订阅号

如何正确的猜拳:反事实遗憾最小化算法

反事实遗憾算法是一种自我演绎的AI模型。本质是两个AI代理人互相对抗,从头开始学习游戏。事实上在多数情况下,这是一个代理人进行自我对抗,所以它的学习速度会翻倍(...

3166
来自专栏IT派

40行Python代码实现“旅行者困境“演化过程

在纳米比亚的 PyCon 会议上,我发表了一篇名为 《使用 Python 解决“升级版的剪刀石头布”》(Rock, Paper, Scissors, Lizar...

761

扫码关注云+社区