我想知道Google Reader是如何从网页中提取新闻条目的。
你们有人知道它是怎么工作的吗?或者如何构建一个类似的系统来从网页的HTML中提取相同的信息。
显然,它没有使用标准(也不仅仅是读取RSS/ATOM),因为Google Reader证明它可以读取页面的内容,而不管标记是什么样子。
发布于 2011-12-27 06:54:28
谷歌阅读器目前没有从原始网页中提取任何形式的内容。它曾经有一台"track changes to arbitrary pages" feature,但那是一年多前的removed。
当给定的URL不是提要的URL时,Google Reader会获取其内容。如果内容是HTML语言,它将查找<link rel="alternate" type="application/atom+xml" href="feed.xml">形式的autodiscovery元素。如果找到,它将订阅提要。
发布于 2011-12-21 07:15:27
您已经通过使用"RSS“标记您的问题回答了您的问题。
无论如何,Google Reader像所有其他RSS / Atom阅读器一样阅读RSS或Atom提要。您可能想看看相应的维基百科文章:http://en.wikipedia.org/wiki/RSS
https://stackoverflow.com/questions/8583171
复制相似问题