谷歌开源交互式可视化 GPS 数据库(附 20+数据集)

【新智元导读】谷歌研究院官方博客(北京时间)今日更新,宣布开源与哈佛大学等高校和机构合作完成的一个交互式可视化 GPS 地球地震周期物理学数据库。不仅如此,本文后附 20+ 更多奇异有趣的数据集,万一哪天用上了呢?

谷歌希望借开源产品,打造数据数集生态

(文/Jimbo Wilson,Google Big Picture Team 软件工程师;Brendan Meade,哈佛大学地球与行星科学系教授)为了帮助研究人员更好地了解地震周期并探索相关数据,谷歌研究院发布了一种新的交互式数据可视化方法,通过相对于真实位置放大位置估计值,在地形图顶部绘制大地测量速度线(geodetic velocity lines)。

与现有方法——集中于小段时间或单个观测站位置不同,新的可视化方法可以一次显示整个阵列所有观测站的数据。获取开源代码可以访问 GitHub,用的是 Apache 2 许可证。这种可视化技术是哈佛大学地球与行星科学系与 Google 机器感知(Machine Perception)和大图片(Big Picture)团队之间的合作成果。

这种新的方法可以帮助科学家快速评估地震周期各阶段的变形——包括地震(同震)和(地震)之间的时间。 例如,我们可以到站的方位角(方向)反转,因为它们与地形结构和活动断层有关。挖掘这些运动将帮助科学家审查他们的模型和数据,而这两者是开发准确的计算机表征的关键,有助于预测未来的地震。

将这些数据可视化的一种经典方法大致分为两类:

  1. 根据固定时间间隔上的速度/位移矢量上生成的地图视图(下图左);
  2. 根据每个 GNSS 分量(经纬度和高度)与时间生成的位置图(下图右)。

这次研究人员采用的可视化方法很简单:通过放大每天的经度和纬度位置变化,显示每个站的位置随时间演变的轨道。这些放大的位置轨迹被示为划在阴影浮雕地形顶部上面的轨迹,从而给观看者一种在地理情景中位置演变的感觉。

此外,研究人员还将这些微小差异乘以用户控制的比例因子(因为直接在地图上的这些点之间绘制线段会太小而看不到)。默认情况下,此放大因子为 105.5(约 31.6 万倍)。

然而,这种类型的静态渲染遭受与速度矢量图像相同的问题;在具有高密度 GNSS 站的区域中,轨道彼此重叠显着,造成细节模糊。为了解决这个问题,该可视化允许用户自主选择时间范围、放大矢量和其他设置。此外,通过从开始到结束动画线,用户能够获得静态图像中难以实现的真实的运动感。

选择来自日本 GEONET 阵列大约 20 年的数据。通过它可以看到,在 2011 年日本东北地震前后方向上小而连贯的变化(原文是 .gif 图,下面用截图表示):

上面这个动图显示了许多可视化的交互功能:

  1. 修改乘数可调整移动放大的程度;
  2. 可以调整时间滑块选择特定的关注时间范围;
  3. 使用 Google Maps JavaScript API 地图控件,可以放大地图中的一个很小的区域;
  4. 通过启用地图标记,可以看到有关各个 GNSS 站点的信息。

通过关注感兴趣的站点,在这个可视化动图中还可以看到事件前后和当时的曲率变化。

为了实现线段的快速渲染,研究人员使用 THREE.js 创建了一个自定义叠加,以在 WebGL 中渲染线条。GNSS 站点数据以数据纹理(data texture)的形式传到 GPU,使得顶点着色器(vertex shader)基于用户设置和动画,动态地在屏幕上定位每个点。

这项目合作探索了开创性的新地震可视化机会。如果你也想自己试着进行可视化,请按照earthquake.rc.fas.harvard.edu 中的说明进行操作,包括如何完成设置、如何下载可用的数据集。欢迎通过 GitHub 项目页面提交问题。

还有更多你意想不到的数据集大放送

除了谷歌研究院开源的这个数据集,此前新智元就整理过一些开放的数据库列表。鉴于今天的“11·11”,下面就来看更多有趣的数据集~

(文/Oliver Cameron)有人说,在机器学习里,数据的重要性占了 95%,可想而知数据对于机器学习的重要性。

但是,要找到有趣的数据库非常困难,可以说执掌了行业向前发展的关键。因此,我做了大量的搜索,整理出一个奇怪但有趣的数据库的列表:

上图可能看不清晰,可以访问原文点击放大查看(原文地址见文末)。从葡萄酒品质、SMS Spam Collection 到 NBA & MLB Satats,上面这个列表中,作者表示他自己最喜欢是的 UFO Reports,里面有整整 8 万+ 的数据!

此外,Oliver 也很着迷于军事化的数据集,其中包括 200 年的国际威胁和冲突,里面包括采取的行动、敌对程度、死亡率和结果。

如果有任何想要分享的想法、问题或数据集,他表示很乐意以 Tweet 形式听到你的意见。你可以关注 @olivercameron 并给我发消息。

原文地址:

  1. https://research.googleblog.com/2016/11/open-source-visualization-of-gps.html
  2. https://medium.com/@olivercameron/20-weird-wonderful-datasets-for-machine-learning-c70fc89b73d5

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-11-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯社交用户体验设计

打造H5里的“3D全景漫游”秘籍 - 腾讯ISUX

7803
来自专栏机器学习算法与Python学习

资源 | 中文NLP资源库

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

2902
来自专栏量子位

资源警告!有人收罗了40个中文NLP词库,放到了GitHub上

最近,在GitHub上,有人收罗了一份资源,汇集了40个关于中文NLP词库,涵盖了各个方面。

3963
来自专栏AI研习社

普林斯顿联合Adobe 连声音都能PS了 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 季伟 校对 / 贤儿响叮当 整理 / 雷锋字幕组 AI 研习社出品系列短视频《 2 分钟论文 》,带大...

3004
来自专栏Y大宽

4 翻转课堂的设计及步骤(含慕课和视频制作)

总分总的格式 总体框架 话题导入,图片或视频 知识讲解 图片内容 模板应用

1.1K3
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(4)——借博客点击兼谈干预规则

讲过长课的老师,常在受众将发生审美疲劳之时段,安排一点有趣的内容。为消除疲劳,现来一段有趣的、与博友的自尊心和荣誉感相关的博文,议题是:挖掘科学博客的平均...

3287
来自专栏镁客网

悉尼大学推光子计算机核心技术,未来其运行速度将至少快出20倍 | 内送AR卡片

2110
来自专栏大数据文摘

2015年10佳用Plotly制作的可视化图表

2798
来自专栏大数据文摘

7种方式玩转信息可视化中的时间线设计

3125
来自专栏机器学习养成记

数据分析小案例(三):调查问卷(python)

案件回顾 传统吉祥物还是萌系美少女 商业街想设计一个吉祥物做宣传 对商业街店主和顾客发放调查问卷 调查问卷的问题中有对吉祥物的偏好调查。也有对商业街的魅力调...

5557

扫码关注云+社区

领取腾讯云代金券