说明(供参考):
我想索引一个完整的文件驱动器:~2TB
我正在获取文件列表(使用commons库)。
一旦我有了文件列表,我就会检查每个文件,并使用Apache Tika提取可读的数据。
一旦我有了数据,我就用solr对它进行索引。
我在java应用程序中使用solrj
我的问题是:如何决定要传递给Solr的集合的大小。我试着传递不同的大小,有不同的结果,即有时150个文档每个集合比100个文档更好,但有时它们没有。是您可以调整的最佳方式/配置,因为必须反复执行此过程。
并发症:
1)文件存储在网络驱动器上,检索文件名/文件也需要一些时间。
2)这个程序(java应用程序)和solr本身都不能使用超过512 of的ram。
发布于 2013-12-25 10:46:00
我将仅列举一些可能影响索引速度的参数。通常需要对自己的硬件、RAM、数据处理复杂度等进行实验,才能找到最佳的组合,即没有单一的银弹。
发布于 2013-12-28 11:31:35
注释掉单个核上的自动提交、日志和索引。在solrj中使用多线程(线程数= cpu *2中的线程数)来命中单个核心。
问候
拉贾特
https://stackoverflow.com/questions/20150160
复制相似问题