我想刮几个不同的讨论论坛,其中大多数都有不同的HTML格式。与其为每个页面剖析HTML,实现某种学习算法会更有效(也更有趣),它可以识别每个页面上的不同消息(即结构),并单独解析它们,同时忽略所有无关的废话(即广告和其他废话)。有人可以给我一些参考资料或已经在这方面进行的工作的示例代码吗?
另外,有没有人知道Arc90可读性代码的伪代码?
http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/
发布于 2011-11-03 22:34:06
构建满足以下条件的解决方案:
这种技术被称为包装器归纳。
发布于 2011-10-10 22:51:47
似乎有a Python port of arc90's Readability script可以为您指明正确的方向(或者至少是某个方向)。
发布于 2011-10-10 22:48:51
也许不完全正确,但有一本O‘’Reilly的书叫做“集体智慧”,它可能会为你试图做的事情指引你正确的方向。此外,许多示例都是用python编写的:)
https://stackoverflow.com/questions/7714422
复制相似问题