在使用ApacheNutch2.2.1爬行网页之后,该页面的内容将被推送到Solr。Solr将整个网页的内容存储在"content“字段中,因此该字段中的数据通常非常大。所以我担心的是:
我应该在Solr中索引"content“字段吗?索引这么大的字段将增加索引大小。在Solr的schema.xml文件中,我发现了以下建议:
NOTE: This field is not indexed by default, since it is also copied to "text"
using copyField below. This is to save spa
我有一个数据表模型,有大约4000张记录。偶尔,我需要删除所有的数据并从Google表中重新加载。我能够删除一页数据,每次只删除一行数据,代码如下:
var set = widget.datasource.items;
set.forEach(function f(i){i._delete();});
widget.datasource.load();
问题是,这是缓慢和有问题的网页超过20条记录。有办法大容量删除记录吗?谢谢你的建议!