我想询问是否有任何方法可以让我的爬虫一直到页面底部,并等待页面加载(以便加载的帖子的html将被添加)。因为twitter的html代码只显示几篇文章,你必须手动向下滚动才能在加载底部文章后刷新html。<html></html>标签将只显示当前存在的帖子,而我的爬虫程序将停止。
def spider(targetname, DOMAIN, g_data):
for item in g_data:
try:
name = item.find_all("strong", {"class": &
我有一个由以下元素组成的HTML站点地图( sitemap链接到我的页脚)
logo (linking to / )
link for the first block of 150 links
link for the second block of 150 links
....
我现在有一个SEO魔术大师,这不能解释我为什么,但他说,标志必须链接到首页和每一页与150个链接块应该链接到/sitemap。他简单地说:“这正是谷歌所喜欢的”。我是开发商。我知道爬虫的工作原理,以及那些写得很好的爬虫器(我们可以假设google爬虫是最先进的爬虫器),解析页面中的所有链接,只访问/爬行以前没有访问
架构概述:
语言:使用类库执行爬虫任务的C# Windows项目
我目前正在编写一个接口(UI),用于“调试”我编写的爬虫(或一组爬虫器)。每个爬虫都是一个.dll。
在接口中,我将调用.dlls,我不想等待它们结束任务(在内部爬行、解析和构建元素列表)来在接口上显示结果。
问题:
我是否可以以某种方式从.dll向界面发送反馈信息?
也许是一个进度条,或者在读取元素之后,在界面上显示它们,然后再爬行下一个元素?
我想要的是这样的东西在界面上实时显示(网格视图或其他东西)。
Finished Crawling College X
Finished Crawling College Y
Probl
我有一个爬虫的基本结构。现在我在一些php驱动的网站上发布了它,它就像一个护身符。不过,现在我想让它从ajax内容构建数据表。
目前,我正在使用Mechanize for PYTHON和perl来构建我的爬虫。虽然机械化模块不执行AJAX。如何访问由异步ajax构建的内容?
我知道有一种叫做Selenium的东西,一种真正的自动化浏览器。但这是我唯一的选择吗?
这可能是一个模糊的问题,但它看起来像是某个机器人正在抓取我的网站,而且做得非常糟糕。它似乎是从我的应用程序js文件中猜测It,并将其放入urls中,例如:
Couldn't find Post with id=keypress
更奇怪的是,HTTP引用被列为application.js。
以前有没有人经历过这种情况?有什么办法阻止这些爬虫吗?