首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Solr与EMC Documentum的集成

Solr与EMC Documentum的集成
EN

Stack Overflow用户
提问于 2016-05-19 20:35:30
回答 2查看 641关注 0票数 0

我们在EMC Documentum中提供了大量pdf文档我们有一个要求,我们必须将Apache Solr与Documentum集成,以便我们可以在solr中搜索特定文档,并从Documentum获取文档

我查看了下面的链接,它不是足够的信息https://community.emc.com/docs/DOC-6520

帮助是非常有价值的

EN

回答 2

Stack Overflow用户

发布于 2016-05-20 13:25:20

您所发布的链接将为您提供一个有效的解决方案。该作者建议编写一个连接到Documentum存储库的自定义爬虫,然后使用Apache Tika执行Solr的内容提取。

不过,我建议您使用

充当将内容从Documentum获取到

  • Apache ManifoldCF的爬网程序。您不应该手写这篇文章,因为它已经完成并测试过了。Apache ManifoldCF旨在提供一个开源框架,用于将源内容存储库(如Microsoft Sharepoint和EMC Documentum )与目标存储库或索引(如Apache Solr、open Search Server或ElasticSearch )连接起来。Apache还为目标存储库定义了一个安全模型,允许它们强制实施源存储库安全策略。

  • Apache Tika执行内容提取(PDF to text),以便稍后可以在Solr中搜索文档内容。Apache Tika™工具包可以检测并提取上千种不同文件类型(如PPT、XLS和PDF)中的元数据和文本。所有这些文件类型都可以通过一个界面进行解析,这使得Tika在搜索引擎索引、内容分析、翻译等方面非常有用。
票数 1
EN

Stack Overflow用户

发布于 2017-10-18 19:07:12

我已经构建了自己的连接器,可以从Documentum中提取数据并插入到Elasticsearch或solr中,我愿意与您分享。请联系我

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37323398

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档