我正在尝试使用Search Server Express 2010通过管理中心为一个非SharePoint站点创建一个爬网规则。我不确定cookie文件应该是什么格式,但是我尝试过的各种格式都提供了这个错误,并且我在网上找不到预期的格式。有没有人能提供指向正确格式的链接?爬网程序爬网时可能不会存储/传回cookie。
感谢您的帮助,谢谢。
正在执行深度为200的爬网命令。但在几次迭代之后,获取失败,并出现下面提到的运行时异常。java.lang.RuntimeException: java.lang.IllegalArgumentException: KeyValue size too large
Exception atGoraRecordWriter.class while writing to datastore: KeyValue size too large 爬网命令: /Data/Apache/apache-nutc
我目前使用作为我的网络爬虫的选择,我试图自学网络爬虫是如何工作的。我已经开始爬行了,我希望它能在下面的根目录(/ crawlStorageFolder / crawl /crawlStorageFolder)中快速返回爬行过的数据
* crawlStorageFolder is a folder where intermediate crawl data is