腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7737)
视频
沙龙
1
回答
文本
索引器(用于python),内置对doc、docx和pdf
文件
的支持
、
、
、
、
我目前正在为我的python程序寻找
文本
索引器。我列出了
Solr
,一个Lucene项目,以及原生于python的Whoosh。我搜索了大量关于对doc、docx和pdf
文件
的支持的文档,
Solr
不断地向我指出
Tika
包,其中一个版本与
Solr
集成。 如果任何包都有内置的支持三种格式的,结果就不用提了。呜呜和索尔支持他们吗?
浏览 1
提问于2011-07-16
得票数 1
回答已采纳
3
回答
Solr
ExtractingRequestHandler
提供空内容字段
、
、
、
、
我使用
Solr
6.2.1和
ExtractingRequestHandler
(已经包含在
Solr
6.2.1中)来索引pdf和word文档。根据,我应该有一个非空的内容字段:"
Tika
将
所有提取的
文本
添加到
content字段中。“<lib dir="
浏览 9
提问于2016-10-20
得票数 1
1
回答
google chrome浏览器扩展中的索引服务器
、
、
、
是否可以在google chrome扩展中启动索引服务器(如
SOLR
),以便用户可以通过该扩展
将
文件
索引到本地服务器?
浏览 0
提问于2017-04-03
得票数 0
1
回答
使用
Solr
配置
Tika
、
我希望索引富类型文档(Pdf,文档,rtf,txt)到
Solr
。我找到了
Tika
作为解决方案。我在网上大喊大叫,但没有找到任何文档/链接来让它在
ExtractingRequestHandler
上工作。任何人都可以提供一步一步的方式来配置
ExtractingRequestHandler
的
Tika
。 提前感谢:)
浏览 0
提问于2013-07-13
得票数 2
回答已采纳
1
回答
如何在Apache
SolR
中索引pdf / word文档
我想读一个word / pdf文档,并在
SolR
中索引这些文档。据我所知,
SolR
接受JSON或XML格式,而不是word / pdf /txt
文件
。在
将
文档发送到
SolR
之前,是否需要将word / pdf文档转换为JSON或XML?我最初认为我应该使用
Tika
,但我的理解是,
Tika
可以
将
pdf转换为text,而不是JSON。请你指导如何在
Solr
中索引好吗? 谢谢你的帮助
浏览 0
提问于2016-08-11
得票数 3
1
回答
SOLR
:
将
文件
文本
添加到
现有
记录
(
ExtractingRequestHandler
)
、
、
、
我在
SOLR
中用"name“、"title”和"description“字段索引文章。我希望以后能够使用
Tika
/
ExtractingRequestHandler
添加一个
文件
(如Word文档或PDF)。或者通过其他接口) 但是这取代了正确的post (上面的post1) --我是否可以传递一个参数,让它只
添加到
记录</em
浏览 3
提问于2010-07-27
得票数 1
1
回答
在导入丰富文档时,是否存在用于
SOLR
的最佳实践schema.xml?
、
、
、
、
我正在与
SOLR
合作,在这个项目中,我们导入了一堆(~40k项)丰富的文档,主要是import、Powerpoint、Excel和PDF。当使用schema.xml
ExtractingRequestHandler
**?**时,在
SOLR
中是否有最佳实践和/或可供使用 我一直在对默认模式进行调整,试图让方面在日期修改时间上工作,但即使没有这些,我也认为很可能存在这样一个很好的例子,说明在
Tika
的默认输出已经足够时,这些
文件
应该是怎样的如果没有最佳实践schema.xml和/或solr
浏览 0
提问于2011-12-05
得票数 5
5
回答
通过SolrCell没有来自
Tika
的元数据的
文本
内容
、
、
使用
Solr
3.6和ExtractionRequestHandler (又名
Tika
),是否可以
将
(PDF的)
文本
内容映射到减去元数据的字段?不幸的是,
Tika
生成的" content“字段包含了与文档
文本
内容相关联的所有元数据。 ="<
浏览 0
提问于2012-06-04
得票数 5
回答已采纳
3
回答
solr
.extraction.
ExtractingRequestHandler
ClassNotFoundException
、
、
我正在我的公司做一个需要
solr
的内部项目,但是我无法将它链接到
Tika
。我买了apache 4食谱,但是我想不出解决方案。 org.apache.
solr
.common.SolrExceptionCaused by: org.apach
浏览 4
提问于2013-05-02
得票数 2
回答已采纳
1
回答
tika
solr
集成
、
、
、
我正在尝试使用基于curl的请求进行索引curl "http://localhost:8080/
solr
1/update/extract?literal.id=who.pdf&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@/root/apache-
solr
浏览 2
提问于2011-05-31
得票数 7
1
回答
用
Solr
SimplePostTool支持.txt和其他
文件
、
、
、
、
我正在运行
Solr
4.8.1并使用SimplePostTool (示例\post.jar目录中的post.jar)进行索引。我可以成功地索引xml、json、csv、pdf、doc、docx、ppt、pptx、xls、xlsx
文件
,但是当尝试索引其他
文件
类型( .txt,7z .rar .EAP .sql .zip .avi)时,我给出了错误: "SimplePostTool:警告
Solr
返回一个错误#400坏请求SimplePostTool:警告: IOException同时读取响应: java.io.IOEx
浏览 1
提问于2014-07-01
得票数 0
1
回答
Solr
8.4.1云: bin/post -找不到
文件
问题
我是
Solr
的新手,并且一直在学习8.4.0的教程。在使用SolrCloud成功地遵循了techproducts示例之后,我现在尝试使用一种无模式的方法来索引一些PDF
文件
。为此,我使用了以下内容(同样来自本教程)来索引存储在~/Documents/pdf
文件
夹中的几个
文件
: bin/
solr
create -c localpdf -s 2 - rf 2<title>Error 404 Not Foun
浏览 11
提问于2020-01-23
得票数 2
回答已采纳
1
回答
Solr
用于索引和搜索
文件
夹中的PDF
文件
、
、
、
、
我们有一个客户正在使用Google Search Appliance (GSA)来搜索数千个PDF
文件
。PDF
文件
位于以子
文件
夹组织的
文件
共享上。它会定期查找新
文件
并将其
添加到
数据库中。例如,他们的GSA不能正确搜索PDF中的竖排
文本
。我们已经研究了Apache Lucene和
Solr
,以及
Tika
和
ExtractingRequestHandler
。我已经启动并运行了
Solr
示例,并使用curl添加
浏览 3
提问于2014-04-30
得票数 1
2
回答
用
SOLR
中的
TIKA
索引指向pdf的URL
、
这在
SOLR
使用
tika
是可能的吗? 注意:我不能使用数据导入处理程序,因为传入的请求不是来自单个源,而是通过外部源完成的。
浏览 1
提问于2017-03-13
得票数 0
回答已采纳
2
回答
如何使用apache
solr
为
文本
文件
建立索引
、
、
我想为
文本
文件
建立索引。通过大量搜索,我对Apache
tika
有了更多的了解。现在,在我研究Apache
tika
的一些站点上,我了解到Apache
tika
将
文本
转换为XML格式,然后将其发送到
solr
。但在转换时,它只创建一个标记示例......现在,我希望索引的
文本
文件
是一个tomcat本地主机访问
文件
。这个
文件
是以GB为单位的。我不能存储它和一个索引。这可以在Apache
浏览 3
提问于2013-03-19
得票数 2
1
回答
使用
Solr
CELL的
ExtractingRequestHandler
从包格式中索引/提取
文件
、
、
、
、
你能将
ExtractingRequestHandler
和
Tika
与任何压缩
文件
格式(zip、tar、gz等)一起使用来提取内容以进行索引吗? 我使用curl向
solr
发送archived.tar
文件
。curl“”-H ' content -type:application/octet-stream‘--data-binary "@/home/archived.tar“查询文档时得到的结果是,归档
文件
中的
文件
名被索引为&q
浏览 2
提问于2010-10-26
得票数 0
回答已采纳
1
回答
如何从
Solr
下载索引文档?
、
我能够使用
Solr
索引文档(Word,PDF)。有可能拿回原始
文件
吗?我想不是,因为
Solr
只存储一个索引--但是如果我错了,你能纠正我吗? 如果没有--它通常是如何解决的(我的意思是检索原始文档?)
浏览 1
提问于2015-10-14
得票数 1
回答已采纳
1
回答
Solr
ExtractingRequestHandler
在链接中提取"rect“
、
、
我正在利用
solr
来提取和索引
ExtractingRequestHandler
内容。我的问题是它生成的提取链接部分。返回的提取内容在HTML源代码中不存在的地方插入了"rect“。solrconfig单元配置如下: startup="lazy" class="
solr
.extraction.
ExtractingR
浏览 8
提问于2014-03-05
得票数 5
2
回答
解压pdf
文件
时发生
solr
延迟加载错误
、
、
、
、
我正在使用
solr
来索引pdf和doc
文件
。我正在使用bitnami堆栈() string filecontent = null; at org.apache.
solr
.core.SolrResourceLo
浏览 0
提问于2013-03-28
得票数 1
回答已采纳
2
回答
如何使用
Solr
4.0+对包含在数据库BLOB中的富格式文档进行索引?
、
、
、
、
正如我
将
解释的那样,相关的解决方案对我不起作用。(我使用的是
Solr
4.0,并对存储在Oracle 11g数据库中的数据进行索引。)他描述了如何创建一个自定义的Transformer,有点像
Solr
附带的ClobTransformer。这是在走优雅的道路,但没有使用
Tika
,它现在与
Solr
集成在一起。另一个相关的解决方案是
Solr
附带的 (ERH)。但是,顾名思义,这是一个请求处理程序,比如处理富
文本
文档的HTTP post。以这种方式从数据库中提取文档存在性能和安
浏览 4
提问于2013-03-01
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Apache Tika识别文件类型
golang转换pdf到word
全文检索之Solr7.4服务器
手把手系列6-Solr单机安装并设置开机启动
spring boot整合solr-solrClient使用
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券