前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >互联网数据聚合

互联网数据聚合

作者头像
四火
发布2022-07-15 21:26:41
4050
发布2022-07-15 21:26:41
举报
文章被收录于专栏:四火的唠叨四火的唠叨

我们经常需要从互联网上获取数据,在很多情况下,你需要的是特定信息,或者说是符合某些条件的信息,比如:

这条需求隐含着两个有普遍意义的步骤:

  1. 从互联网上聚合符合特定条件的信息;
  2. 当满足阈值条件时,以某种方式通知用户。

事实上有太多做互联网数据聚合的网站了,比如酷讯机票,聚合了各大航空公司的机票信息:

再比如一些博客聚合网站等等。现在想想这样的场景:

  • 每到一个新地方,自动给我的各个微博账号发一条地点签到微博;
  • 我关注的明星有最新的动态,邮件通知我,第一时间获得消息;
  • 我的股票一旦涨到某个值,短信提醒我该抛售了;
  • ……

其实这些事情不难实现。

IFTTT

不知道你是不是和我一样,当看到上面那两条步骤时,想到的第一个词就是IFTTT。IFTTT 是一个 IF This Then That 的网站,如果某件事发生,就做另一件事,不需要任何编程经验:

当某 rss feed 有更新的时候,就给我的邮箱发送一个邮件。

可以发邮件通知,可以发短信通知(对我的联通手机号支持好像不行),很方便也很强大。从交互性来说,是类似网站中做得最好的。如果你没有尝试过,你一定要去试一试。但是 IFTTT 貌似不支持自定义网页 XPath 的条件。

这样的东西怎么能没有 Copy-to-China 的版本?中文抄袭版本叫做 “如果云”,连界面都很像,现在处于邀请码发放阶段。

YQL

我在上一篇博客里面已经讲到了 YQL 怎么使用,在 console 上测试自己写的查询语句,并将其暴露成一个简单的链接,任何时候需要查询结果的时候只要访问这个这个链接就可以了。你可以把它看做一个特定用途的非常简单的爬虫。YQL 的语法和 SQL 很接近,再需要一点 XPath 的知识,很容易掌握。

Yahoo 是很想做一些大事情的。对于互联网上千奇百怪的 API,它想把他们都统一起来,可以用 YQL 类似于 RDB 执行 SQL 语句的方式来调用。也就是说,不仅仅让整个互联网更像一个数据库,还让访问统一化,更容易读写。

YQL 有一些内置表,以便你可以轻松获取到 Yahoo 的 web 服务数据,以及一些离线数据。而开放数据表(Open Data Tables)则允许你创建和使用自定义的数据表,屏蔽那些复杂的 web 接口访问,让查询数据的人对于复杂接口的访问变得容易。如果你对它感兴趣,请访问它的 guide 文档。比如,这个语句是从 apple.itunes 表中查找记录:

代码语言:javascript
复制
select * from apple.itunes where term='x' and media='all' and entity='allTrack' and attribute='allArtistTerm' and limit='100' and sort='recent';

执行这个语句就可以看到所有的表了:

代码语言:javascript
复制
show tables

和 SQL 语句看起来似乎没有什么区别。

JSinterpreter.xml 为例,通过这样的定义,可以让 YQL 中执行 js 成为可能:

代码语言:javascript
复制
            <inputs>
              <key id="NEW" type="xs:string" paramType="variable" required="true"/>
              <key id="execute" type="xs:string" paramType="variable" required="true"/>
            </inputs>
            <execute><![CDATA[    
            var NEW= new XML(unescape(NEW));          
            eval(unescape(execute));
            ]]></execute>

使用:

代码语言:javascript
复制
USE "http://www.datatables.org/trygger/JSinterpreter.xml" as t1;
select * from t1 where NEW="%3Ctest%3E%3Cvalue%3EHello!%3C%2Fvalue%3E%3C%2Ftest%3E" and execute= "var%20res%20%3D%20NEW.value.*%3B%0Aresponse.object%3D%3Cresult%20status%3D'ok'%3E%7Bres%7D%3C%2Fresult%3E%3B"

现在如果你使用 YUI,引入 YQL 查询组件就可以在页面代码里直接调用了:

代码语言:javascript
复制
YUI().use('yql', function(Y) {
    Y.YQL('select * from ...', function(r) {
          var results = r.query.results
          ...
    });
});

还可以找得到 AWS 服务的,OAuth 的,GitHub 数据访问等等的表定义文件。

Yahoo Pipes

Pipes 是一个聚合、操作和混搭互联网内容的拼装工具。就像 Linux 的管道一样,几个简单的命令,就可以:

  • 合并许多 RSS feed,然后排序、过滤和翻译;
  • 给你喜欢的 feed 按地理编码,然后再一个交互性的地图中浏览;
  • 输出成为网站上强大的 widget/badge;
  • 以 RSS、JSON、KML 等等格式输出;
  • ……

Pipes 的还有一个特点是拖拖拽拽就可以把整个处理流程搞定,不需要很多编程技巧,另外,对 YQL 和 XPath 也提供原生支持,这就意味着它的功能非常强大,可定制性强。虽说最初的目的就是 RSS 聚合而已,但是它可以做的事情比这多得多。

ChangeDetection

现在从抓取网页信息的迷局中走出来,下面介绍一些监控网页的工具,这些工具并没有提供让你从网页中抓取特定信息的功能,但是你可以很容易地获知网页变化的信息。ChangeDetection 就是这样一个监控网页是否发生变化的网站,如果你是某个人的粉丝,想要监控他偶尔更新的网页动向;或者说是要监控 Amazon 上某个产品的价格变化,使用这个工具是最好的了。这个应用做得比较简单,只支持 email 通知而已。

不过它的比较功能显得很直观,网页中增删改查的部分全部都可以看出来。

其它类似的工具还有:

把网页转换成 RSS 数据源

这算走了个歪路。监控网页变化的工具介绍过了,如果现在把网页转换成 RSS 数据源以后,就有许许多多新的工具来监控网页的变化了。转换网页成为 RSS 数据源的工具有:

对于 RSS 源监控的工具:

如果你不需要 Email 之类的特殊提醒工具,使用一般的 RSS 阅读器就可以搞定。

正如我之前提到过的,互联网就是一个数据非常充盈的数据库,也许数据统一性做得不够好,但是谁赢得了数据,谁就赢得了互联网。这里有太多机会让我们思考、寻找或者制作适当的工具去解决数据聚合的难题。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档