我对我最后一年的项目有一些问题。我们正在实现一个抄袭检测框架。我的工作是互联网资源检测部分。目前,我的互联网搜索算法已经完成。但我需要增强它,以便减少互联网搜索延迟。
我的想法是这样的:
提示第一个用户插入一些web链接作为系统的初始知识馈送。然后它在互联网上爬行并扩展它的知识
一旦知识被获取,系统就不需要再次查询互联网。有人能给我一些指导来实现它吗?我们使用的是Java。但任何抽象的细节肯定会对我有所帮助。
发布于 2011-06-03 13:42:59
如果服务器端编程是您亲手编写的,那么您可以管理一个在数据库中具有布尔值的tabel,它显示之前是否读取过详细信息。每次客户端连接到服务器时,它将首先检查布尔值,如果布尔值设置为false,则意味着需要向客户端发送更新,否则不会发送更新。
每次客户端从服务器下载任何数据时,布尔值都将变为true,每当数据库更新时,布尔值将变为false
发布于 2011-06-03 14:56:23
我不太清楚你在问什么。不管怎么说:
如果你正在寻找一个Java Web爬虫,那么我建议你阅读this question
祝好运!
https://stackoverflow.com/questions/6223053
复制相似问题