Freebase.com 介绍

3个月前,就在freebase.com上线的第二天,我在日志里惊呼"这将是互联网上继Wikipedia之后又一个杀手级的应用"。可惜当时freebase.com不对外开放,我不能进去看个究竟。

上个星期,我终于得到了它的邀请信,成为了注册用户。于是,我将这个网站初步研究了一下。

Freebase的作用

首先,我来说一下,这个网站到底是干什么的。

简单说,Freebase是个类似wikipedia的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于,Freebase中的条目都采用结构化数据的形式,而wikipedia不是。

比如,下图是已故美国总统肯尼迪的条目(点击看大图)。可以发现其中所有的内容都是格式化的,一条一条的,有点像履历表,包括出生时间、死亡时间、性别、职业、国籍、配偶等等。

这一套格式是固定的,所有人物条目都包含同样的字段。这样一来,数据之间就可以很容易地联系在一起,为信息的查询和处理提供了巨大的方便。

举例来说,将来可以很方便地在Freebase中查到"出生于1946年的美国电影导演的名单",然后你就可以根据这份名单,立即从Freebase中提取他们每个人的简历。要想在wikipedia中完成类似的查询是非常困难的,事实上,wikipedia最大的缺点就是它的数据不是结构化的,因此难于引用和处理。

推而广之,Freebase的目标是包含地球上的所有信息,因此可以设想,理论上,将来可以从freebase中得到任何信息。我立刻能想到的一个应用是,将来在电脑上播放DVD或mp3时,播放器可以到Freebase中获取光盘或专辑的出版信息。

Freebase的结构

Freebase的结构分为三层:Domain -> Type -> Topic。

1) 在Freebase中,每个条目叫做一个Topic,每个Topic中的固定字段,叫做"属性"(Property);

2) 所有同类的Topic组成一个Type,比如所有电影Topic就属于同一个Type,每个Type都有一套固定的Property,因此同类信息可以直接比较和关联;

3) 所有相关的Type组成一个"域"(Domain),比如电影和音乐都属于"艺术和娱乐" Domain。

截至现在(2007年5月30日),Freebase中共有61个DOMAIN、765个Type,2,312,676个Topic。

元数据的威力

如果你熟悉图书馆学的话,其实可以看出来,Freebase的核心功能就是为每一类条目(Type)定义了一套元数据。元数据是否准确和适用,是影响Freebase成败的关键。

Freebase最强大的地方就在于,它里面的元数据是可变的,具有弹性。

具体的操作机制,我还没有完全搞清楚,好像是用户可以定义自己私人的元数据,然后在某些条件下,某些私有元数据的Property可以变为共有的Property。

对Freebase的一些意见和展望

现在Freebase全站完全都是用Ajax搭建的,HTML页面中根本不包含具体数据,完全要靠Javascript去读取。这等于拒绝了搜索引擎,我认为是极其不智的。

另外,也许是Alpha版的原因,现在的网站中还不包括信息输出,使得用户无法引用。我认为,每个条目都应当提供xml文件才好。

不管怎样,Freebase是一个革命性的网站,就像一个国外程序员所说:"Freebase是2007年迄今互联网上最激动人心的东西"(This is the most exciting Web thingy 2007 until now.)我想我将在这个网站里面,继续花费大量的时间,四处逛逛,熟悉整个系统。

我预计,到明年的这个时候(2008年6月),Freebase将成为互联网世界中最热门的话题之一。

(完)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Redux 入门教程(一):基本用法

    一年半前,我写了《React 入门实例教程》,介绍了 React 的基本用法。 React 只是 DOM 的一个抽象层,并不是 Web 应用的完整解决方案。有两...

    ruanyf
  • 换头术

    他的一个观点,令我印象深刻。他说,医学的进步改变了人们对于死亡的看法。人们不再把死亡当作不可避免的自然结果,而是归因于某种技术失败。某个治疗步骤出错了,或者技术...

    ruanyf
  • 全文Feed的终极解决方案

    但是,世界上的大部分Feed,都是摘要Feed,甚至是标题Feed。我们只好自己动手,制作全文Feed。

    ruanyf
  • 保时捷和XAIN测试IoT, AI,区块链智能汽车技术解决方案

    保时捷目前正在测试车内区块链应用。该公司宣布将成为第一家在汽车中实施并成功测试区块链技术的大型汽车制造商。 “我们可以更快更安全地使用区块链转移数据,给客户更多...

    首席架构师智库
  • 快讯 | 又一数据泄露事件!美Quora网站1亿用户信息被盗

    2018年到年底了,盘点一年的网络安全事件,“数据泄露”肯定是今年的年度最热话题之一:

    大数据文摘
  • 浪潮之巅,程序员如何拥抱新技术?

    青润:我接触计算机最早的是 86 年,那个时候还是小学,就从 basic 开始学起,我本科学的是材料加工工程,毕业后又在中科院待了一年多,随后出来转行当程序员,...

    腾小云
  • 这份“脑立体定位图谱”,你值得拥有。

    在神经科学研究中,经常需要对特定的脑区进行给药、毁损、或者注射等操作,还有一些脑电研究需要使用探针采集特定区域的信号。这些实验都需要使用脑立体定位技术。

    Mark Chen
  • Snorkel实战NLP文本分类

    本文是作者一个tweet/微博文本分类实战项目的全程重现与总结。该项目的最大特点是使用了弱监督技术(Snorkel)来获得海量标注数据,同时使用预训练语言模型进...

    用户1408045
  • 创造特殊的构造函数——寄生构造函数模式

    当我们需要构造一个特殊的数据,我们可以通过寄生构造函数来实现。比如我们要格式化一个Array(简单举例),将其变成一个有“|”组成的字符串,我们可以这么做:

    就只是小茗
  • 让Ubuntu“保存”屏幕亮度值解决每次开机亮度都最大的问题

    到了ubuntu14.10后,路径就变为了 /sys/class/backlight/intel_backlight/max_brightness.但改不改都没...

    飞奔去旅行

扫码关注云+社区

领取腾讯云代金券