前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >分析世界新闻:通过谷歌查询系统探索GDELT项目

分析世界新闻:通过谷歌查询系统探索GDELT项目

作者头像
灯塔大数据
发布2018-04-10 12:05:25
3.3K0
发布2018-04-10 12:05:25
举报
文章被收录于专栏:灯塔大数据灯塔大数据

用全球新闻报道去分析、观察乃至预测人类社会是一种什么样的情况?

由谷歌理念所倡导的GDELT项目旨在创建一个实时、开放的世界新媒体资料索引库,与全世界一同分享以编码形式存在的源数据。GDELT库是世界上最大的关于全球化社会的开放数据集,它的复杂性、增长率和分析负荷,使得对数据的理解和获取具有特别的挑战。GDELT多元的用户群和应用范围意味着其访问模式难以有章可循——各式各样的查询仅通过一次分析便可获取几十条相关信息,完全不同于传统索引数据库的使用方法。

由于从每篇文章中归纳出的主题和情感种类逐渐增多,GDELT的结构必须支持有效存储和获取数百万维度信息。此外,越来越多的查询将针对整个文档范围内的宏观层面的查询。鉴于常规查询甚至都需要运用复杂算法才能处理TB字节的数据,所以数据库内执行也就变得非常必要。

作为一个倡议数据开放的活动,GDELT项目的目标就是使其数据更加快捷、自由地呈现在世人面前。然而,该数据的量级和特征给分享带来了很大困难。我们正是要通过Google BigQuery(谷歌查询系统)平台来帮助用户获取和查询这一不断增长的数据库。本文将讨论GDELT和谷歌查询系统如何共同致力于应对世界新媒体,这一数据分析学的新挑战。

GDELT项目是什么?

GDELT 项目使用与全球合作伙伴合作开发的大型新媒体库,它对全球每一个可获取的印刷品、广播和网上新闻报道进行实时监控,并特别监控那些以当地语言报道的当地新闻。GDELT监控的每一篇文章首先经过机器翻译成英语(一小部分材料为人工翻译),然后通过大量的算法渠道进行加工。这些算法可以识别数百种事件(从抗议到和平呼吁),数千种情感(从焦虑到激动),数百万种叙事主题(从女权到获得清洁水源)以及地点、任务、组织和其他指标。

然后这种以编码形式存在的源数据(并非文章的实际文本)以一种开放的数据流形式发布,每15分钟更新一次,形成一种多语言、带注解的全球新闻索引。将背景引入该实时数据流也是经过同样的一系列加工过程,其中包括涵盖JSTOR、DTIC在内、近二百一十亿字、长达七十年的学术文献和近一百七十亿字的网络PDF文档;五十年的世界人权报告记录;五十万小时的美国电视新闻;还有近二百年内出现的书籍。

Google BigQuery谷歌查询系统又是什么?

谷歌查询系统是一个基于云的分析数据库,其创建是为了服务于像GDELT这样的海量数据源。通过使用谷歌的基本架构,它将数PB字级的数据组和十万亿行的文档数据转化为结构化查询语言(SQL)。查询通过编程接口进行提交,并以标准的SQL表达出来,该结构化语言还可通过用户设定的Java程序语言功能进行扩展并用于高级搜索。每天数百太字节(TB)的新数据(批处理和流运行)经客户载入大查询系统后便可供即时查询使用。数千个处理器可同时用于一次搜索,无需检索或分隔数据即可快速显示结果。

GDELT项目如何通过谷歌查询系统应对大数据挑战?

鉴于GDELT数据组的巨大数量级和繁多的种类,分享渠道也是一大难题。从三亿一千万行五十九列的传统表到每行数百万维度乘以数百万维度并实时增长的高流动性表,什么才是分享万亿个数据点数据库的最佳方式?尽管所有的数据在网上都有CSV文件格式可供下载,而有磁盘和处理能力去下载TB字节数据并有效查询和分析的人却是寥寥无几。这也就是谷歌查询平台特别符合GDELT的需求之处。谷歌查询平台的下列特征使用户能够有效地与GDELT数据组进行互动:

  • 可伸缩性和灵活性:GDELT数据组以多种形式对数十万亿数据点进行同时编码。一些事件种类例如抗议或和平呼吁这样的数据流,具有高度的结构化模式,可专供RDBMS系统使用,而且已在几十年的使用过程中不断被优化。其他数据流,例如叙述和情感种类,表示的则是专门用于极端小规模情况的全新元数据运用,而对该规模数据进行编码则少有先例。难度更大的是,需评估的维度数量的不断增长,要求流体模式也要能够不断扩展。每一个被处理的维度都必须对数字信息进行编码,例如与其他信息的相近程度或者强度。所有这些都需要灵活的数据格式来支持复杂数值和不断扩展的需求,而这些谷歌查询平台都能提供。
  • 新数列的持续更新:GDELT中的一个数据组负责从每篇监控的新闻报道中识别数百万主题,同时还包括各种情感的状态、背景和强度。随着时间推移,主题和情感的范围不断扩展,这要求能够去查询并分析每行数百万维度的实际意义,每一行都必须存储数值以及分数。通过利用谷歌查询平台的高级正则表达式,GDELT以排列分隔的格式储存数据,并在查询时提取精选值。
  • 实时数据与历时数据关联:可在历史文档范围内加入GDELT的实时更新数据,并据此判断其重要性、相关性和潜在的效果。鉴于实时的更新必须能够用于即时地分析突发事件,所以以相同的标准查询实时和历时的存储数据也就显得尤为必要,谷歌查询平台也可以做得到。
  • 对众多列进行特定的无索引搜索:GDELT的一个数据组就是含有三亿一千万行、五十九列、跨越近三十七年的全球事件记录文档。查询会用到众多的列,每一次都是不同的列组合。任何一个单独的列或列组都不具有强有力的还原能力,因此传统的RDBMS模式已经落伍,需要的正是一个像谷歌查询平台这样的无索引查询处理模式。
  • 开放性信息:作为开放数据,所有的GDELT数据流都可以免费获得。这意味着GDELT数据需要在一个能够将数据代管与管理资源、查询资源相分离的平台上运营。谷歌查询平台就能够使人们公开获取数据组信息。
  • 高级计算:GDELT查询通常含有复杂的逻辑,例如在给定的文件里匹配主题与位置,这要求TB字节的数据在经过处理之后最终以地理直方图的形式输出。同样GDELT需要完全在数据库平台上执行同样复杂的控制流程和算法。谷歌查询平台的用户设定功能为此功能的实现创造了可能性。
  • 数据库内的全数据分析:除了上述较为传统的分析外,某些方法要能够有效地分析整个数据库本身。例如:要想观察新闻媒体发布信息的周期和模式,就要求能在一个移动窗口交叉对照整个数据库,此外还需要透明计算和数据移动缩放。进行该类分析所需的大量处理器离不开像谷歌查询平台这样的一个云代管环境。

运营中的谷歌查询平台和GDELT

谷歌查询平台几乎能够使实时搜索GDELT的海量文档成为现实,并以互动的方式查询、分析并形象表达文档的观点。通常,谷歌查询平台可用于观察一国的抗议或冲突的纵向趋势,把当前的动荡放在其历史背景下分析。例如:图一表示了智利自1979年以来的动荡,看出1983——1998年皮诺切特政权的起义运动出现的高峰值、十年后1998年10月皮诺切特被捕的动荡和国家自此以后的稳定。最近这一方法还用于对比过去四十年来欧盟境内的反动趋势。该种分析的优势就在于能够尽览几十年间发生的数百万全球事件,并快速生成对某一个国家稳定性的量化时间表,准确表示动荡局面的起起落落。

图一:借GDELT和谷歌查询平台之眼看到的智利国家的稳定幅度(Y轴代表不稳定强度)(贡献者:菲利普·霍法)

另一个GDELT数据组则是记录了每一个被监测新闻文章中所有的任务、组织、地点、主题和情感类型,据此信息构建了一个大型的源数据索引。仅仅通过SQL语言,谷歌查询系统便浏览了一亿五千万条新闻记录,编纂了一千五百组姓名,这些姓名在希腊救助公投的新闻报道中均高频同时出现。

该行为在几秒钟内即可完成。然后谷歌查询系统输出了能将Gephi可视化的CSV文件,并合成了如图二的网络图表。这种图表使用户能够快速了解某一个话题是如何在世界新闻媒体中呈现,中心人物是谁以及他们是如何相互产生联系等。在本例中,例如德国的Angela Merkel和Wolfgang Schaeuble、卢森堡的Jean-Claude Juncker和法国的Francois Hollande等欧盟领导人的关键作用都在图中清晰可见。

图二:2015年7月1日至15日希腊新闻报道中高频出现人物网络图 (贡献者:卡列夫·李塔鲁/GDELT)

GDELT常用谷歌查询系统的另一个方式就是在特定主题上下文中定位。谷歌查询系统的用户利用Java语言设定功能使任意复杂的应用作为查询的一部分,例如嵌套循环,以及在一个文件中将每个主题与其最近位置相连等,以使整个分析途径在谷歌查询系统中能独家运行。图三中,在有关2015年2至6月野生动物犯罪的背景中提到的定位都用CartoDB绘制了出来。该图已被用来表示野生动物犯罪的广泛性。其他由GDELT和谷歌查询系统生成的地图还包括:反坦克武器、气候变化、200年记录、希腊债务危机以及伊斯兰国有关的背景定位等。

图三:2015年2月至6月全球野生动物犯罪新闻报道中提到的地点在全球范围内的定位 (贡献者:卡列夫·李塔鲁/GDELT)

毕尔巴鄂比斯开银行(BBVA)跨国新兴市场组织的研究人员,运用GDELT和谷歌查询系统已经做出了从当前的欧洲难民危机(见图四)到更加复杂的社会动荡动力学建模等方面的一系列分析。在下图中,BBVA跟踪了今年上半年欧洲和北美范围内难民的流入(橘色)和流出(红色)情况。这种将从数百万新闻报道中发现的趋势,并以清晰的图形方式呈现的方式,表达了对事件的批判性观点,预测了近期有可能造成重大动荡与不安之危机的地理分布。

图四:2015年1月14日至6月15日欧洲和北美范围内难民流动图 (贡献者:BBVA跨国新兴市场集团,已获使用许可)

研究的未来

GDELT项目由高度多样化的数据模型、实时与历时查询、数据库内计算和含有数十万亿数据点的开放性可获得数据组组成。因为它们开始接纳大数据——云服务,这就是传统上和社会科学领域一样的“小数据”领域的研究未来,例如谷歌查询系统,将能直观地处理缩放和数据管理,使研究人员专注于解答问题,进而激发新观念、启发新思考。

翻译:灯塔大数据

作者:Kalev LeetaruFelipe Hoffa

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档