首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >人们会使用哪些与人工智能(AI)相关的技术来解析网页?

人们会使用哪些与人工智能(AI)相关的技术来解析网页?
EN

Stack Overflow用户
提问于 2011-10-10 22:39:52
回答 3查看 442关注 0票数 1

我想刮几个不同的讨论论坛,其中大多数都有不同的HTML格式。与其为每个页面剖析HTML,实现某种学习算法会更有效(也更有趣),它可以识别每个页面上的不同消息(即结构),并单独解析它们,同时忽略所有无关的废话(即广告和其他废话)。有人可以给我一些参考资料或已经在这方面进行的工作的示例代码吗?

另外,有没有人知道Arc90可读性代码的伪代码?

http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/

EN

回答 3

Stack Overflow用户

发布于 2011-11-03 22:34:06

构建满足以下条件的解决方案:

  • 采用一些具有相同结构的示例网页(例如论坛和每个页面的DOM树,以查找哪些部分相同/ different
  • where它们不同是您想要的动态内容(帖子、用户名等)

这种技术被称为包装器归纳。

票数 2
EN

Stack Overflow用户

发布于 2011-10-10 22:51:47

似乎有a Python port of arc90's Readability script可以为您指明正确的方向(或者至少是某个方向)。

票数 1
EN

Stack Overflow用户

发布于 2011-10-10 22:48:51

也许不完全正确,但有一本O‘’Reilly的书叫做“集体智慧”,它可能会为你试图做的事情指引你正确的方向。此外,许多示例都是用python编写的:)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7714422

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档