Wolfram 公司签约布道师和认证培训师, 中国管理科学研究院人才战略研究所特聘专家,毕业于奥地利克拉根福大学信息学专业,出版了多套教程,并为高校和企业提供软件培训和咨询服务, 帮助用户了解和掌握 Wolfram 产品的主要功能和在相关领域的具体应用。
█ 本文节译自2017年4月20日的 Stephen Wolfram 博文:Launching the Wolfram Data Repository: Data Publishing that Really Works(https://wolfr.am/lbHamabB)
在 Wolfram Data Framework 和 Wolfram 语言的基础上,Wolfram 数据存储库(Data Repository)提供了一个统一的系统,存储着海量即时的资料,从天文科学到社经文教、数字、图片和文本信息,并立即导入到 Wolfram 语言之中将其计算分析或可视化展示。
4月20日,Stephen Wolfram 宣布 Wolfram 数据存储库在历经十年的规划构建后正式推出。
我们经常会在阅读文章时候,看到有意义结论或感兴趣的情节,于是想要马上尝试自己进行分析和验证。不过如何获取直接用于计算的数据是个相当棘手的问题。
而 Wolfram 语言目标之一就是尽可能多地建立数据,并使所有数据立即可用和可计算。从木星或者其他已知行星的相关的数据,到艾伦·图灵的生日都可以在 Wolfram 中立即获得,并立即用于计算。
上面这些数据已经完全集成到 Wolfram 语言和 Wolfram|Alpha 中,但是相对于整个人类的信息而言,仍是沧海一粟。这也就是 Wolfram 数据存储库存在的意义,记录下每一个人所贡献的数据,方便这些数据未来可以作为其他人可以随时使用和计算。
我们来看一个数据存储库给出例子,Wolfram 数据存储库中发布的每个数据项目都会获得自己的网页。比如关于落在地球上的陨石的记录有一个单独的页面。
通过查看运行这个笔记本,可以开始看到 Wolfram 数据存储库的一些实际功能。可以看到获取数据变得非常轻松,所要做的就是运行 ResourceObject["Meteorite Landings"]
无论是在桌面还是云端使用 Wolfram语言,这将为你提供有关 45716 条陨石撞击的数据 (数据被会被缓存在本地,方便下一次计算能尽可能快地运行。重要的是,我们可以立即开始对该数据集执行任何想要的计算。
例如,下面取所有陨石落地的“坐标”,随机选取 1000 处坐标在地图上可视化展示出来。
你也会想到,现实中可能有很多不同领域的数据,单位进制等等,Wolfram 公司已经设计出基于 Wolfram Data Framework(WDF)可以接受各种类型和结构的数据,也是使得数据存储库得以实现的基石。
Wolfram 数据存储库中都有什么?
在正式发布之前,Wolfram 已经将一些最典型的数据集成到里面了,所以下面领域里都可以数据集共我们立即使用,不过更多的数据还需要由全球的用户和组织上传分享。
数据可以是任何类型和结构的类型,电子表格或者是数据库文件。
时间序列数据(美国联邦支出数据):
还有机器学习相关的训练集,地理相关数据等等。
这些数据可以通过 Wolfram 语言直接调入软件中,或者通以其他格式下载如 JSON、CSV、TXT、PNG 等。
如何分享自己的数据?
Wolfram 数据存储库是面向全球的共享数据平台,所以每一个人都可以自由地向世界发布数据,还可以设置控制的方式共享数据 - 只是将数据部署到自己的云端账户里,自己或设置权限来使用。
那么如何往数据存储库里添加记录呢?可以使用 Wolfram 语言代码以编程方式执行,或者以菜单栏方式进行。
比如可以通过菜单项 “文件” > “新建” > “数据资源” 来执行此操作。
或者也可以在 Wolfram 语言中使用 CreateNotebook ["DataResource"] 。无论哪种方式,会得到新建的数据存储提交模板笔记本中,还需要完成必要的信息及数据内容编写:
当填写完必要的数据信息后,可以有两种选择:在计算机上本地添加数据资源,或把数据资源推送到云端自己的账户上。
或者你最终决定将数据与全世界分享,那还需要填入一个发布者 ID,这样需要与你所在公司组织进行关联,而不仅仅是个人账户,因此需要与 Wolfram客服进行申请后获得发布账户。
未来 Wolfram 也会推出针对企业的数据存储库和具有 DRM 数字版权保护的版本,方便整个组织在内部或与外部更加安全,便捷的进行数据分享,访问与处理。
如果你对 Wolfram 数据存储库感兴趣的话, 推荐点击阅读原文来查看 Stephen 的博客介绍,或访问 https://datarepository.wolframcloud.com 来进一步了解和探索数据存储库平台。