腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
ElasticSearch
搜索
pdf
文档
的
内容
、
、
我正在做一个利用AWS Lex chatbot和
ElasticSearch
的
项目。我
的
目标是解析一个查询,目的是
搜索
单个
pdf
文档
并提取一些相关信息。我
的
印象是,尽管我
的
研究遇到了障碍,但使用
ElasticSearch
是可能
的
。我知道
ElasticSearch
有能力索引
文档
,但这似乎仅限于索引实际
的
文件,以便
搜索
与查询匹配
的
文件
浏览 28
提问于2020-10-21
得票数 1
2
回答
跨多个
文档
与
ElasticSearch
的
匹配
、
、
、
我对
ElasticSearch
相对来说是个新手。我正在使用它作为一个
搜索
平台
的
pdf
文件。我将
PDF
分解成文本页,并将每一页作为
elasticSearch
记录输入,其中包含相应
的
页面ID、父信息等。我发现困难
的
不仅仅是将给定
的
查询与ES中
的
单个
文档
相匹配,而是使其与任何具有相同父ID
的
文档
相匹配。因此,如果
搜索
两个术语,如果实际
PDF</
浏览 1
提问于2013-10-25
得票数 0
回答已采纳
2
回答
将解析后
的
内容
提交到
ElasticSearch
、
我正在尝试在
Elasticsearch
中上传文件(.txt、.
pdf
)。
Elasticsearch
只接收json格式
的
内容
。有没有办法直接发送解析后
的
内容
(.
pdf
或.txt to String),或者我必须将String解析成json
文档
才能将其发送到
Elasticsearch
。
浏览 0
提问于2018-08-13
得票数 0
1
回答
处理空字段
、
、
我是stormcrawler和
elasticsearch
的
新手。我目前正在使用stormcrawler 2.0将网站数据(包括
PDF
和Word
文档
等非HTML项目)索引到
elasticsearch
中。在某些情况下,
PDF
或Word
文档
的
元数据不包含标题,因此该字段在
elasticsearch
中存储为空。不幸
的
是,这在我用来显示
搜索
结果( search -ui)
的
webapp中引起了
浏览 12
提问于2020-07-25
得票数 1
2
回答
使用
ElasticSearch
和/或Solr作为MS Office和
PDF
文档
的
数据存储
、
、
、
我目前正在设计一个全文
搜索
系统,其中用户对MS Office和
PDF
文档
执行文本查询,结果将返回最匹配查询
的
文档
列表。然后,用户将选择返回
的
任何
文档
,并在MS Word、Excel或
PDF
查看器中查看该
文档
。是否可以使用
ElasticSearch
或Solr导入原始二进制
文档
(即.docx、.xlsx、.
pdf
文件)导入到其“数据存储”中,然后根据命令将
文档
导出到用
浏览 47
提问于2015-01-16
得票数 22
回答已采纳
3
回答
可
搜索
数千份
文档
的
最佳做法(
pdf
和/或xml)
、
、
、
、
重新审视一个停滞
的
项目,并在更新数千份“旧”
文档
并通过网络提供这些文件方面寻求建议。
文档
以各种格式存在,有些已经过时:(.doc、PageMaker、硬拷贝(OCR)、
PDF
等)。有资金可以将
文档
迁移到“现代”格式,而且许多硬拷贝已经被OCR转换成
PDF
--我们最初假设
PDF
将是最终格式,但我们愿意接受建议(XML?)。一旦所有的
文档
都是一种通用格式,我们想让它们
的
内容
和可以通过web接口进行
搜索</em
浏览 7
提问于2012-06-01
得票数 48
回答已采纳
1
回答
使用hadoop提供各种
文档
(
pdf
、ppt、MS word、纯文本等)
的
可
搜索
存档
的
最佳实践
、
、
、
、
我遇到了一个问题,我有各种不同格式
的
文档
,比如
PDF
、stored、PPT、纯文本等等,这些
文档
都存储在HDFS中。我应该将
内容
提取到
elasticsearch
索引中,并为其构建一个全文
搜索
系统。我读过关于ES-Hadoop
的
文章。但我不太清楚,在这种情况下,我是否可以使用映射器-附件插件、ES
的
插件或Apache ,以及ES是否是实时
的
(如果我使用它)。我很好奇,从
文档
中提取
内容
浏览 2
提问于2016-04-04
得票数 0
回答已采纳
1
回答
如何在
ElasticSearch
中
搜索
单个
文档
中单个字段中最常用
的
单词?
、
、
如何在
ElasticSearch
中
搜索
单个
文档
中单个字段中最常用
的
单词?假设我有一个
文档
,它有一个类型为keyword
的
字段"
pdf
_content“,其中包含: “好
的
礼貌
的
好
的
好
的
礼貌
的
好
的
” 我想要一张返程
的
{ occurences: 3{
浏览 15
提问于2021-10-27
得票数 1
回答已采纳
2
回答
支持现有文件
的
内部知识库软件
、
、
在我
的
公司,我们需要为我们
的
新支持团队实现一个知识库。 目前,我们有一个包含Word (doc和docx)、OpenOffice和
Pdf
文档
的
NAS,其中包含了所有信息。我们正在寻找某种用户可编辑
的
网站(一个维基,也许?),与全文支持,可以
搜索
网站
的
内容
和所有NAS
文档
。此外,我们希望用户能够以灵活
的
方式继续修改现有的NAS
文档
(他们可以作为共享文件夹直接访问Windows中<em
浏览 0
提问于2015-09-03
得票数 3
1
回答
如何使用
ElasticSearch
获取发生在
PDF
中
的
文本的确切位置?
、
、
、
我正在建立一个应用程序,需要有功能,以允许用户在
pdf
内
搜索
相似的
内容
(可能使用
ElasticSearch
)…因为我确实写了一些代码来了解如何使用
ElasticSearch
查找确切
的
pdf
文件,但我不知道如何获得文本的确切位置……或者我如何突出显示
搜索
结果?
浏览 17
提问于2020-12-27
得票数 0
1
回答
修改已摄入
的
pdf
的
内容
我在
elasticsearch
中创建了一个管道,它包含一个包含pdfs数组
的
文档
。我想修改
内容
字段,以便在结束时连接其他字段,以便进行
搜索
。} } ]}, callback); 我不能在foreach之后添加一个集处理器,因为我需要访问每个
pdf
的
内容
,以便将该
文档
的
值放在
内容
的
末尾。"bastid
浏览 1
提问于2017-04-03
得票数 2
回答已采纳
1
回答
使用Node.js
搜索
PDF
文本并返回代码片段
、
、
、
、
我有大约两百万个文本可
搜索
的
PDF
文件。我需要能够在它们中
搜索
用户
的
查询并返回一个代码片段和一个文件名。前端是一个Node.js React应用程序。现在,我可以使用pdfjs-dist (https://github.com/mozilla/pdfjs-dist)将
PDF
内容
读取到MySQL数据库中。然后使用全文匹配...通过查询来
搜索
文本。然而,这是尴尬
的
,与200万
的
<e
浏览 20
提问于2019-01-09
得票数 0
1
回答
使用逻辑运算符过滤Github问题
、
is:issue label:bug bug in:title基本上是做is:issue && label:bug && bug in:title
的
。我
的
问题是,是否可以像:is:issue && label:bug || bug in:title这样进行查询。 但我找不到任何相关
的
东西。
浏览 8
提问于2022-07-14
得票数 1
1
回答
如何上载/索引富/结构化文本
文档
以使用
ElasticSearch
进行
搜索
?
、
、
、
、
我正在围绕包括Microsoft
文档
、PowerPoints、
PDF
和文本文件在内
的
文档
建立一个
搜索
引擎。我已经成功地下载并安装了
ElasticSearch
并让它运行(从命令提示符和浏览器-localhost:9200可见)。 我可以上传和
搜索
手动输入
的
数据(可以在几个在线教程中找到--比如这个:)。现在我要做(大
的
?)从
搜索
手动输入
的
数据跳转到
搜索
大量结构化文本文件。我
的
浏览 4
提问于2014-06-11
得票数 1
回答已采纳
1
回答
中
的
索引元数据是否与加密
内容
一起工作?
、
、
、
场景bucket1/def.doc bucket1/ghi.txt我想在上面的文件中
搜索
像&
浏览 3
提问于2019-07-08
得票数 0
回答已采纳
1
回答
如何使用
Elasticsearch
摄取附件插件索引
pdf
文件?
、
、
我必须使用
Elasticsearch
ingest插件在
pdf
文档
中实现基于全文
的
搜索
。当我试图在
pdf
文档
中
搜索
单词someword时,我得到了一个空
的
命中数组。pipeline=attachment "filename" : "C:\\Users\\myname\\Desktop\\bh1.
pdf
", "title" : "Qu
浏览 2
提问于2017-02-08
得票数 5
回答已采纳
4
回答
如何使
PDF
搜索
一个烧瓶
搜索
应用程序?
、
、
我一直在为一个非常重要
的
个人项目做研究。我想要创建一个烧瓶
搜索
应用程序,允许我
搜索
100多
PDF
文件
的
内容
。我已经找到了一些信息周围
的
ElasticSearch
Lib,很好地与烧瓶工作。 #!我在
ElasticSearch
中找到了一个关于如何将dave文件作为
ElasticSearch
索引
的
博客。我已经看到DocuSign为
文档
模板做了这些工作。然而,,我不知道如何以一种可<em
浏览 0
提问于2020-02-02
得票数 8
回答已采纳
2
回答
从HDFS中存储
的
文档
中提取数据以进行弹性
搜索
索引
、
、
、
我有一个HDFS档案来存储各种文件,如
pdf
,ms文件,ppt,csv等。我想建立一个使用
elasticsearch
搜索
文件或文本
内容
的
平台。我知道我可以使用 ES -hadoop插件来索引从HDFS到ES
的
数据。我想知道从存储在HDFS中
的
文档
中提取文本数据和索引
的
最佳方法。 任何帮助都将不胜感激。
浏览 0
提问于2016-04-05
得票数 0
回答已采纳
1
回答
Elasticsearch
找不到关键字
搜索
、
、
我要去一个文件夹,其中有
PDF
文件。在for循环中,我提取每个
PDF
文件
的
文本。我
的
PDF
文件中带有文件名
的
文本(字符串)以名为"e1“
的
JSON格式存储。然后将这个e1插入弹性
搜索
数据库中。每次for循环中
的
索引数都会增加。 我希望能够获得基于关键字
搜索
的
Json对象列表。这样,我就可以看到在哪些对象(我在
Elasticsearch
中插入
的
"
浏览 1
提问于2019-10-10
得票数 0
回答已采纳
2
回答
Solr与EMC Documentum
的
集成
、
我们在EMC Documentum中提供了大量
pdf
文档
我们有一个要求,我们必须将Apache Solr与Documentum集成,以便我们可以在solr中
搜索
特定
文档
,并从Documentum获取
文档
我查看了下面的链接,它不是足够
的
信息 帮助是非常有价值
的
浏览 0
提问于2016-05-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
pdf文档怎么修改内容?修改pdf文档的方法有哪些?
如何识别PDF文档中的内容
如何高效实现PDF文档内容的识别
Java文档内容搜索技巧与实践指南
什么是 Elasticsearch 的分布式搜索特性?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券