我已经安装了nutch和solr来抓取一个网站并在其中进行搜索;正如你所知道的,我们可以用nutch的解析meta tag插件将网页的meta标签索引到solr中。()现在我想知道有什么方法可以抓取另一个不是meta的html标签到solr中?(插件或其他)就像这样: me specific tag实际上,我想在solr (某物)中添加一个字段,
我有一个gzipped文件的数组。是否可以查看和操作这些xml文件的内容,而不需要解压缩和占用磁盘空间?如果是,那么用于此任务的正确类(Es)是什么?我知道我可以从压缩文件的文件中创建一个gzipinputstream,但是从那里我不知道该做什么。我只写了这个:
GZIPInputStream in = new GZIPInputStream(new FileInputStrea