词云可视化——中文分词与词云制作

随着微博研究的深入,社会网络分析和可视化技术的需要,面临中文处理问题,开始钻研文本挖掘的问题,过去的传统的数据挖掘一直研究的是结构化数据,文本挖掘和意见挖掘涉及内容更多,特别是中文处理是不可逾越的障碍!

从网络分析、文本挖掘和意见挖掘角度看,主要解决以下内容:网络抓数据—MySql和Hadoop存储—API接口—创建网络数据—Knime和R语言挖掘-KOL意见领袖和网络分析—中文语料和文本语义—R语言与分词—用户词典构建—情感词典建设和情感分析—文本聚类分类—归并文本挖掘与网络分析—规则建模推荐算法—PMML模型与云端部署—API插件和接口程序——网络cytoscape可视化分析—Gephi动态可视化分析—Xcelsius仪表盘与Tableau可视化分析—RoambiAPP移动应用等;

在学习的过程中,我们成立了数艺智库和中国传媒大学数据可视化兴趣小组,每周活动一次。同学们都是80、90后的年轻人更有创新意识,学习也快,特别是小技巧和工具的掌握。我特别强调工具的应用,因为同学们都是文科背景,coding的能力不是我们的强项,学会和掌握最好最适合的现成软件工具是我的指导思想。

数据可视化兴趣小组的参与同学热情很高,特别是高年级同学传帮带,象谈和、德凯、若晨等同学成为小组的主要指导教师。这个工具也是同学们先找到了,在谈和同学讲解的过程中,我提出了创意要求。

特别是在数据可视化领域,根据兴趣不同学习了:PS、AI、PREZI、PPT、Xcelsius、Excel、D3js、Processing、Tableau、Romabi等,词云的制作也是大家感兴趣的。 下面来说说词云制作,个性化词云制作: 首先:个性化词云制作非常简单,瞬间就可以完成,甚至可以说是一种雕虫小技,在线制作。当然,我还是希望把研究和创作思路告诉大家:

1

第一:主题和意义

你为什么需要制作个性化词云,是艺术品还是研究分析内容的一种表现方式,是文本挖掘技术的可视化,还是为了传播更方便。形式大于内容,在有内容的前提下,可视化也是一种分析!当然我更倾向文本挖掘后的内容可视化。当然,我也不反对纯粹为了表现或者玩玩的可视化,玩也是一种学习。 因此选择什么主题,什么主题适合用个性化词云表现就更为重要了。比如:为大人物明星打标签,品牌logo打标签,SUV汽车打标签,电视台台标打标签都是好的创意和选择。

2

第二:语料收集

个性化词云是依赖语料和抽取语料关键词呈现的,如果你有了要表现的词云标签,就可以直接制作词云了。记住这里要有两个数据:

1)标签关键词

2)关键词词频,词频决定关键词的显示大小。

语料的收集依赖你的主题和想法,从应用的角度我们主要是为了分析微博,所有微博是最好的语料来源,也是文本挖掘的结果。当然你可以从任何途径和资源活动要表现的语料。

3

第三:分词和关键词抽取

当你获得语料后,如果需要抽取关键词,就需要学习中文分词。中文分词对一些人是技术和障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,例如:Rweibo、weiRbo、中科院张华平老师ICTCLAS2012、武大沈阳老师的ROST CM等,这里推荐初学者考虑用ROST-CM工具入手,分词主要考虑是否可以用户自定义词典和剔除、词性标注等。少量语料的分词比较简单,但海量语料的分词要有一定难度和数据处理能力。

特别强调:任何中文分词如果能够加入人工干涉和主观判断都会提升准确性和有效性;下面介绍的在线个性化分词本身也可完成分词(包括中文分词,体验效果:不同语料和多少,时好时坏)

4

第四:主题图片和个性化调整

分词和抽取关键词、词频完成后就可以制作个性化词云了,但有个前提,你需要收集与主题相关的个性化主题图片。这是一个艺术和技术融合的过程,原则上可以不用任何修饰就可以完成词云,但是如果图片不理想或者找不到你需要的构图,就需要自己抠图和PS一下了。当然软件自带有很多预设模板可以选择,比如:高跟鞋、烟斗、鸡鸭鱼动物、形状等。

5

第五:开始制作个性化词云

你已经看到了制作软件,Tagxedo词云 http://www.tagxedo.com 这是一个在线制作词云的工具,不用license。其实我不用讲,你应该能够学会的,操作非常简单,这里只是稍微介绍些中文词云要点:

  • 装载词和词频:load——可以直接提交语料自带分词和词频,也可以提交分词后的关键词和词频,用分隔符两列。
  • 选择形状或自定义图形:shape——从内置形状菜单选择或add Image选择自己的图形,这里主要选择自己的图形,就可以随心所欲了。图形可以直接用彩色jpg图片,可选择设定黑或白呈现词频;
  • 美好和调整色彩:Theme——根据自己的爱好,选择配色方案和突出强调,完全个性化爱好了;
  • 调整参数(重要):Layout Options——这步对中文很重要,主要是两个选项:1)Word选择Apply Nonlatin Heuristic设定No,这样就不会把中文分词(否则都是单词和内容分词了),2)Skip选择不需要的词或标签
  • 完成保存:Save——确认满意后就可以把个性化词云保存了,选择jpg或png格式和大小保存即可

6

第五:完成和传播

上面基本就完成了个性化词云操作,但往往有些细节要注意,比如把软件的水印剪裁掉,如何将一组词云拼接,增加必要的说明和意义解读,当然别忘了说是@沈浩老师 教的。哈哈(作者:沈浩)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

这只用脑波控制的机器人手臂不仅可以帮忙,还会帮你提高多任务处理技能

想象一下,当你的两只手忙于完全不同的工作时,命令一个机器人手臂执行任务,你只要在脑海里想一想就可以给出这个命令。

622
来自专栏AI研习社

TensorFlow可应用于Android Things的物联网;GitHub发布开源指南 | AI开发者头条

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com A...

3449
来自专栏新智元

微软ICLR论文发布编程机器人DeepCoder,“码农”质疑其水准

【新智元导读】微软和剑桥大学的研究员近日向ICLR提交了一篇论文,其中描述了一个会编程的机器学习系统DeepCoder。网友意见分两派:一方担心程序员很快会失业...

3318
来自专栏绿巨人专栏

读书笔记: 博弈论导论 - 01 - 单人决策问题

32810
来自专栏DT数据侠

信息过载叫苦不迭?机器学习教你如何将文本化繁为简

你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文数据侠就使用Python对...

610
来自专栏快乐八哥

数据可视化-EChart2.0使用总结1

图表是企业级Web开发必不可少的一个功能点。也是“数据可视化的一个具体呈现”。今天看到阮一峰翻译的“数据可视化:基本图表”一文,同时梳理一下公司现在项目使用的E...

1975
来自专栏数据派THU

独家 | 6步教你用R语言制作动图

原文标题:How to create animated GIF images for data visualization using gganimate (i...

1837
来自专栏大数据文摘

Neurons字幕组 | 2分钟告诉你飞秒成像的秘密

1203
来自专栏大数据文摘

谷歌收购的这家公司值多少钱?

2067
来自专栏华章科技

高考不会就选“C”?大数据告诉你这事不靠谱

导读:从小就听说,选择题遇到不会的,就按照这个技巧选择:三短一长选长的,三长一短选短的;两长两短选择B,长短不齐就选BC。

321

扫描关注云+社区