谷歌重磅推出数据集搜索引擎Dataset Search

编译:chux

出品:ATYUN订阅号

谷歌推出了一个搜索引擎Dataset Search,以帮助研究人员找到免费使用的在线数据。该公司于9月5日推出该服务,称其针对的是“科学家,数据记者,数据极客等”。

数据集搜索现在可与谷歌的其他专业搜索引擎一起使用,例如新闻和图片搜索引擎,以及Google学术搜索和Google图书,根据其所有者对其进行分类的方式查找文件和数据库。它不会以搜索引擎为网页的方式读取文件本身的内容。

专家表示,它填补了空白,可以为开放数据运动的成功做出重大贡献,该运动的目的是使数据公开使用和重复使用。

政府机构,科学出版商,研究机构甚至个人研究人员在全球范围内维护着数千个开放数据存储库,其中包含数百万个数据集。

加州山景城Google AI的计算机科学家Natasha Noy表示,但是,想要知道哪些类型的数据可用,或希望找到存在的数据的研究人员,往往不得不依赖口耳相传。

Noy说,这个问题对于处于早期的职业研究人员来说尤其严重,他们尚未建立专业联系网络。对于那些从事跨学科研究的人来说,这也是一个缺点,例如,一位流行病学家需要获取可能与病毒传播相关的气候数据。

分类搜索

Noy和她的谷歌同事Dan Brickley 在2017年1月的博客文章中首次描述了解决该问题的策略。

典型的搜索引擎分两个主要阶段。第一种是通过不断拖网来索引可用页面。第二种是对那些索引页面进行排名,以便当用户输入搜索项时,引擎可以按相关性顺序提供结果。

Noy和Brickley写道,为了帮助搜索引擎对现有数据集建立索引,那些拥有这些数据集的人应该使用名为Schema.org的标准化词汇表“标记”它们,这是一个由谷歌和其他三个搜索引擎巨头创建的计划(Microsoft,雅虎和Yandex),由Brickley管理。谷歌团队还开发了一种用于在搜索结果中对数据集进行排名的特殊算法。

伦敦数据共享公司Suchhare的首席执行官Mark Hahnel表示,鉴于谷歌在网络搜索方面的主导地位,该公司正在进入数据生态系统的消息迅速促使主要参与者排队并将其元数据标准化。(Figshare由Holtzbrinck出版集团运营,该集团在Nature的出版商中占多数股份)。

Hahnel说,“到11月份,我们所在的所有大学都将他们的东西标记出来,我认为这是学术界开放数据的一个转折点。”

他表示,资助机构有时会强制要求提供研究数据,只有在信息可以有效恢复的情况下才能达到最终目标。“它使资助者试图做的事情合法化。”

代理商合作

谷歌实验的早期支持者是美国国家海洋和大气管理局(NOAA)。该机构的职权范围从渔业到太阳的日冕,其档案包含近70,000个数据集,包括19世纪的船舶日志。该装置的总容量超过35PB,与35000个硬盘的内容相当。

NOAA首席数据官Edward Kearns在北卡罗来纳州阿什维尔表示,谷歌的工具将帮助NOAA完成其开放数据任务。“我们希望探索将这些数据提供给其他人的新方法,”Kearns补充道。

为了使数据集搜索起作用,让数据所有者的协作是至关重要的一步。尽管该系统未来可能会变得更加复杂,但谷歌目前还没有计划实际读取数据或分析数据,就像对网页或图像一样。

Noy表示,“像这样的搜索工具与数据发布者愿意提供的元数据一样好。”

与谷歌学术搜索一样,数据集搜索目前不提供自动查询或应用程序编程接口(API)的访问权限,尽管该公司表示它可能会在未来添加该功能。

Noy说,随着研究人员开始使用数据集搜索,谷歌将观察他们如何与之互动并使用这些信息来改善搜索结果。谷歌目前没有将服务货币化的计划。

随着数据集搜索的发展,它也可能与谷歌学术搜索集成,因此特定研究的搜索结果可以链接到相关数据集。

测试:toolbox.google.com/datasetsearch

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-09-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT 指南者专栏

推荐 5 个堪称黑科技的网站

这个周末终于有点闲心来写写自己喜欢的东西了。实话说,可以写的东西其实很多,但是真正属于干货的可能还是有限的。

7273
来自专栏数据和云

揭秘:贵州交警“六合一”系统,零故障运行500天的背后

如今贵州地区,市民只需打开手机APP,就能够快速便捷地享受到诸如路况查询、违章处理、罚款缴纳等一系列自助式服务,免去了往来于家与交警队之间的奔波之苦。在其背后,...

4478
来自专栏云加头条

Supermind智能网络:全网加速+多地同服是如何炼成的?

网络拥堵甚至中断是互联网业务需要面对的难题。腾讯云基于“IP发布控制+云内骨干网+BGP互联”实现的跨地域网络调度,半年累计已帮助用户屏蔽6960分钟运营商故障...

2820
来自专栏我是攻城师

如果Java 失宠于Oracle,那么未来会怎么样?

36910
来自专栏区块链

用户规避安全措施的5种方式 如何正确防范?

【IT168 评论】如果组织在工作安全方面限制过多的话,工作人员通常选择便利性而不是安全性。但是组织可以采取一些步骤将安全平衡扭转回来。 作为一名网络安全专家,...

1867
来自专栏学习有记

Python数据分析相关的社区和会议

在互联网上,有很多Python科学和数据分析相关的社区(Community),用来解决相关的问题通常是非常有帮助的。下面的列表列出了常用的社区:

1562
来自专栏安全领域

物联网即为设备加服务

原文地址:https://dzone.com/articles/the-internet-of-things-is-devices-and-services

40012
来自专栏我是攻城师

无论是云计算SaaS,PaaS还是IaaS,拼的都是运维!

6154
来自专栏大数据文摘

资源 | 如何建设一个成熟的GitHub项目?

人们出于各种原因在GitHub上发布他们的代码项目,大多数是因为他们想向公众展示编码技能或推广自己的产品。考虑到这一点,我们可以用4个标准点来定义“成功”的Gi...

1301
来自专栏数据猿

【视频&PPT】《数据猿巅峰思享会》之巨杉数据库CTO王涛:大数据和数据库的未来趋势

<数据猿导读> 在去年的Strata+Hadoop World大会中,巨杉数据库作为唯一的中国参展商在大会上做了展览和演讲,在本次《数据猿巅峰思享会》现场,王涛...

3376

扫码关注云+社区

领取腾讯云代金券