首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

深度分析IPFS分布式搜索引擎

以下内容由四块翻译实验室根据David Hawig的文章《A Distributed Search Engine for the Distributed Web》翻译并编辑

目前国内外搜索引擎市场

虽然搜索的中立性还有待商榷,但谷歌的中心化搜索引擎所占市场份额超过90%、季度收益超过300亿美元已是现实。垄断不仅造成经济效率低下,而且增加了审查和搜索出现偏倚的可能性。

数据来源:StatCounter Global Stats – Search Engine Market Share

国内搜索引擎市场占比

相比国外搜索市场呈现一家独大的局面,中国搜索引擎市场继续保持增长,预计从季度开始,移动搜索占比继续提高,2018年第1季度,移动端在搜索市场占比达到78.79%。

在移动互联网时代,搜索入口价值减弱,搜索工具属性明显,开始成为移动APP中功能之一,虽然目前搜索广告在整个互联网广告市场占比仍然较大,但市场已经步入成熟期,领先厂商纷纷主动转型以谋求未来发展,目前人工智能成为搜索厂商的转型方向,随着厂商对AI技术的深入探索,领先企业围绕自身优势,发力人工智能的细分领域,开始尝试人工智能初步商业化。

数据来源:StatCounter Global Stats – Search Engine Market Share

国内两大搜索巨头,其一为百度。百度目前一方面构建以手机百度主要平台的移动搜索生态,通过自媒体、短视频等内容争夺用户时间,并开发新广告位,以“搜索+信息流”模式提升商业化变现效率;其二是搜狗。搜狗继续以语音为核心的人工智能产品布局,与百度错位竞争,抢占市场份额。去年搜狗推出英文搜索功能,持续将AI赋能搜索产品,为用户提供沟通全球的搜索内容,同时,今年搜狗输入法商业化启动,将输入场景与人工智能相结合,探索人工智能在自然语言识别领域的商业化落地。

如果要在分布式网络上查找信息,一个中心化的搜索引擎似乎与直觉相悖,因为它违背了分布式网络的基本原则。这也是我们目前正致力于为我们的项目 Dweb.page创建第一个功能齐全、完全分布式的搜索引擎的原因。

分布式搜索引擎Dweb.page

目前所面临的问题

虽然上文已经提到了现今搜索引擎的不足,但我们认为,在改变现有模式时出现的困难是由许多原因造成的。同时,一个分布式的、完全透明的Dweb搜索引擎也面临着以下一系列的挑战:

1.速度:分布式搜索引擎的速度至少要和现有的解决方案一样高速,以及基于分布式账本的交易时间存在很多问题。

2.设备独立性:如今使用手机的人越来越多;分布式搜索引擎需要在没有任何中心化的后台的pc和手机上运行。

3.索引:如何以分布式的方式收集、解析和存储数据,已达到快速准确的检索信息的目标的同时确保人们不会创建虚假的搜索条目?

4.实用性:如何确保分布式数据在被请求时仍然可用?由于数据可以被托管在本地,所以它们只有在某些时间段才可用。

5.货币化和奖励机制:如何为工具的存储和持续发展提供资金?如果不解决这个货币化部分,那么在人才或合作/集成等方面,去中心化的解决方案将很难与现有的中心化解决方案竞争。。

一个潜在的解决方案

为了确保交易能够在高速和流畅中完成,分布式账本技术从一开始就不受这两种性能问题的限制。所以,我们采用了IPFS与IOTA的结合。IPFS正在以一种高速和去中心化的方式来共享和托管文件,而IOTA提供了必要的分布式数据库层。这里需要注意的是,数据库虽然只使用了一部分的IOTA技术,但这部分已经全面发挥作用并且在未来的研究工作中保持独立性(例如协调器)。

这个结合使我们可以提供在各种设备上运行的体验。我们甚至在IE中运行了一个原型。它的特点在于,我们可以在不需要另外安装任何软件的情况下提供一个完全的分布式体验,因为所有代码都在一个基于IPFS的,简单的、完全公开源代码的网页页面中。这也意味着最终的去中心化是每个用户都将运行他们自己的搜索引擎。

受这个分布式界面的启发,我们正在研究分布式搜索引擎的概念:

去中心化和个性化的搜索引擎

我们假设有两种类型的用户,我们这里分别称其为Authors和Consumers(但一个人也可以同时扮演这两种角色)

Authors通过Dweb.page在分布式网络上上传内容。如果他们希望自己的内容是公开的话,那么由他们签署的元数据就会被上传到IOTA上。任何人都可以创建他们自己的元数据,而不是中心化的检索系统。更为重要的是,这个签名系统不会出现当下新闻报道里或银行网站上伪造身份的可能性。

当Consumers第一次打开Dweb的时候,最新的元数据将开始在后台加载。在元数据的基础上,本地运行的搜索引擎会给用户呈现初始的和完全透明的搜索结果。他们初次进行的搜索会自动被当做参考,订阅他们可能感兴趣的作者,额外的元数据也会通过这种方式被加载出来。这也可以看作是元数据的社交网络,Consumers可以在其中“追随”Authors。这种方式的优点在于,一方面用户不必加载整个网页完整的元数据,另一方面,他们可以很容易地限制居心不良的元数据的提供者(例如,错误地标记内容)。此外,如果没有这种订阅者/限制模型,人们可能会开始发送垃圾邮件给搜索引擎。

另外,每个使用Dweb搜索引擎的人的页面都会生成关于内容实用性的信息。这说明,如果有人试图在分布式网络上下载无用的信息,这些信息将发送给其他用户。如果出现多个Authors告诉您一个文件不再可用的情况,它将自动从搜索结果中移除。如果只有一个Author报告,那么这个文件仍然会出现在你的搜索结果中,以便你提出要检查,如果这个Author没有试图拿某些内容的可用性这类谎言来阻止你的话。

对于每个去中心化项目来说,至关键、且具有挑战性的,常常被忽视的部分是如何盈利,以及如何为分布式网络的存储提供商和开发人员提供奖励机制。在没有任何集中化的分布式开源解决方案中,是存在规避任何激励模式的可能性的。这也是许多去中心化的项目都会构建一个集中式的层的原因。除此之外,基于捐赠的系统看起来并不适用于订阅和长期的业务模型。所以我们正在考虑创造一个使所有参与者受益的、透明的模型。下图解释了这个潜在的解决方案是如何运行的的:

分布式搜索引擎的商业模型

广告在搜索市场中有明确的定位, 因为即使保留隐私,也可以仅靠搜索词来查找广告。另外,广告收入可以分开使用,一方面它可以拿来为Authors提供一定数量的免费储存,另一方面,它也可以被拿来支持开发人员进一步改良工具。如果您能想到,谷歌在为您提供15gb的免费云存储外,每个季度还可以帮你取得数十亿美元的收益,那么您也会明白,上述模型可能会为Authors带来一个完全免费的web !除此之外,绝大部分人对广告本身并不反感,他们反对的是他们的个人数据被滥用的行为,但这种滥用的行为并不会出现在这种运行模式里。

同时,这个模型需要完全透明地在分布式账本上创建。这意味着一开始在所有参与者之间构建的正常契约可能就足够了,因为您可以很容易地起诉恶意方(如果资金被滥用而不是投资基础设施的情况出现)。无论如何,该合同从一开始就应该包含基于投票系统的随时间变化的选项。否则,这样的模式可能无法适应未来的发展。例如,在储存的价格可能会变得非常便宜的情况下,我们将这些钱作其他用途是合理的。这一点和系统的其他方面,如呈现的存储或广告的质量,可能很难集成到智能合约中。尽管如此,在后续阶段里,这种设置应该被完全自动化的智能契约所替代。

这篇文章呈现了我们目前正在研究的一个观点,但是它并不是一个完整的产品。我们认为,只有在一开始做到全公开,并感谢任何反馈或贡献的情况下才能实现这一理想。

帮助我们实现这一愿景吧!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181221G0Z8IB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券