首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

gh数据处理——热词分析炫爆你的朋友圈

最近在准备各类课程内容和素材,在处理大数据的时候思维跑偏。。。

热衷了好几天热词分析和图片处理,有点着魔了。。。。。。

先上图(其实朋友圈得瑟了好几天了)

(特朗普最近两周推特热词分析)

(下面是三位总统就职演讲的热词分析)

我一向是实用主义者,所以我不是为了分析图而分析的,总想得到点什么有价值的分析结果(比如川普推特中多次提到比特币哦),我知道网上有网站可以做现成的热词分析图,而且效果非常好,以上的热词分析都是我用grasshopper处理得到的,包括所有的文字内容处理。

这其实也属于gh大数据处理的一部分。

我们先说一下什么是大数据:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

大数据的价值在于有很多其他属性,比如全国火车车次数据,有火车车次的排序,车次的每一个到达站的名称和空间坐标,时间信息等等等等,在这些数据中我们还可以延展出更多的数据,比如行程长度、车站空间密度排布等等。

我们在用gh做大数据处理的时候,我们需要对这些属性(非数字的文本或者是数字的文本内容)进行分析、处理,只有这样才能对数据进行深度的挖掘和表现。

(这里有几张我为课程内容做的gh分析图)

这些案例和类似的案例中都需要对海量的数据属性进行分析、排序、处理、表现。

(上面两张图是我正在制作中的gh空间大数据的课程内容,本篇内容其实也是课程内容的一部分,在这里就当是引流瓶,算贿赂贿赂大家,希望大家多多转发推荐呦。)

说了这么多,我们来看看这篇文章的内容吧。

首先第一步,是找到我们需要的文字内容和图片内容。

我的这些内容都是在谷歌上查找的,如果可以最好在pinterest上去查找(对,就是这么不避讳,也很不想避讳),特别是英文内容,百度结果我是真不想说(不过今天百度图片的时候好像有所改善),图片类型最好是动漫或者是风格艺术图,因为照片太过细致,处理反而不自然。类似于以上那几个热词分析图案例中的图片,最好边界清晰,色彩简单明了,这样得到的结果也会很好。比如

(这张是川普自己丑这没办法,其实就原始图风格而言这种算几张图片中最好的)

(这张稍微有点简单了,处理效果有点雕版印刷的感觉)

(这张像素都偏灰色且相近,所以处理结果就有些模糊,都看不出来他是小布什了)

(这张原始图虽然也有风格化处理,但是还是太过细致,配色贴近真实,处理结果还是很像图片,这就是我说的图片太过复杂的这种)

虽然对比了这些,个人感觉这几张里还是第一张最丑

长得丑果然最没救啊

莫名心疼自己三分钟

再心疼三分钟

哎,不想写了

第二部分

接下来就是文字部分的处理。

这篇文章是川普推特上截取的最近两周的推特内容和几篇白宫的内容(因为都在一起,就没区分),这里做了简单的处理,把网址、回车格式先处理一下,不然后面会有多余的运算量或者数据错误。

第三部分

接下来是对文字进行一些处理,这里看着多,其实就是一个电池Replace Text替换文本,把所有的双空格和各种标点符号都剔除干净,替换成单空格。

如果不这样,"nation"和"nation,"可能会被当作两个词对待,再比如双引号之类的,都需要替换,这样可以得到最完整的内容数据。

第四部分

将第三部分处理后的内容在这里进行拆分Text Split,拆分条件是空格(这就是为什么之前把所有的标点符号和多空格都变成空格的原因)。

在sets面板的list组块里有一个sort list电池,作用是将数字排序,再将其他对应数据根据其排序规则重新排序,在数字排列的时候是根据其数字大小排列的,在text组块中同样有一个sort text,作用和sort list类似,是将文本文件作为排序规则进行排序,再根据这个排序规则将对应其他数据进行排序(个人测试过,比如丙甲乙丁,会被排列成丙丁甲乙,虽然不是很完美,至少算是有规则,有规则就可以进行数据的排序)。

排序之后会把所有的相同单词排序在一起,这很重要。

之后通过Delete Consecutive将重复单词剔除,再用Member Index计算每个单词的重复次数,这其实才是统计的关键数据。再根据单词的重复数量把单词进行重新排序。

第五部分

重新排序后的单词中,会出现很多常用词,比如a、the、and、in或者是空数据都要剔除掉,让真正有价值的内容表现出来,这个根据个人需求来做筛选。

第六部分

这里穿插了一部分,就是把单词的计数(重复次数)进行了数据的缩放,已达到后面图片中大小不一的状态(主要是为了和图片大小匹配)。

还有就是这里对单词的首字母全部大写处理。其实也可以不用,看个人需求。

第七部分

蓝色部分主要是图片的像素化处理。

蓝色部分上面的区域是将文本匹配给图片的像素点(也就是曲面的uv点),为了保证文字排布的均匀,所以将所有点的总和和文字的数量相除,得到间隔数再排列,最后再把所有的色彩匹配给文字。

最后就能得到你想要的图片了。

这个案例中主要是对文本内容的处理,所以没有太多中间模型可以看,大家如果有疑问,可以下载源文件辅助参考。

链接:https://pan.baidu.com/s/1W0Li0mA2dEBVj2T6DSeSyg

提取码:xltd

最后祝大家节后精力无限,活力满满。

PaCR |做一个有逼格的设计师

参数云犀 等你加入

腾讯视频将更新基础课视频内容,届时希望光临哦

最近更新的是parms面板电池讲解,试验版

腾讯视频拾荒小队

如果你们觉得它有价值,我会出续集的

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181007A1HQS400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券