我是开源游戏的新手。在我开始我打算做什么之前,我有一个问题。假设我计划使用c#,没有NoSQL (没有计划使用哪个(RavenDb或MongoDb)),我想在asp.net中为一个站点建立索引。我想用Lucene.net来索引我网站上的数据和页面链接,你到底是什么时候告诉Lucene.Net开始索引的?我的意思是,它是一个每晚开始索引的后台进程,就像SharePoint索引一样,还是在应该调用索引记录时调用insert to nosql的时刻。
页面上的链接如何,抓取引
我正在努力创建一个Java的网络爬虫。爬虫访问网站,使用JDBC访问/存储数据库中的数据,还将文件存储在本地或云存储上。作为爬行的一部分,我想记录爬虫使用的确切细节--Number of sites visited (HTTP+HTTPS)Number of bytes of data stored+accessed in cloud st