腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Tika
解析器/ Java检测pdf是否为扫描文档
、
、
、
但在某些情况下,pdf文件
是
硬文档
的
扫描副本。 有没有办法可以找出给定
的
pdf文件
是
扫描过
的
文件还是普通
的
pdf文件?
浏览 1
提问于2017-02-11
得票数 0
1
回答
图像
处理
在
Apache
Tika
中
是
如何
工作
的
、
、
我正在使用
Apache
Tika
从
图像
中提取文本。
Tika
反过来使用tesseract来识别文本。但是比较
Tika
和Tessaract (我也安装了一个独立
的
命令行工具)
的
输出,我注意到前者比单独使用Tesseract提供了更好
的
结果。那么
在
调用捆绑
的
Tesseract实例之前,
Tika
是否使用了捆绑
的
图像
预
处理
器来提高
图像
质量
浏览 14
提问于2019-09-06
得票数 0
1
回答
Apache
tika
架构和
处理
节点
、
我刚刚开始探索
Apache
Tika
。我想检查一下
apache
tika
后台进程
是
如何
工作
的
。 我尝试
在
独立
的
机器上执行
Tika
,但想知道它在Cloudera集群实时环境
中
是
如何
工作
的
。例如:我有一个200页
的
pdf内容,并使用
Tika
来提取文本或功能。
Tika</e
浏览 3
提问于2019-06-26
得票数 0
3
回答
如何
使用TesseractOCRParser和
Tika
命令行实用工具启用TikaConfig?
、
、
、
、
我已经安装了
apache
1.8,它运行得非常完美,除非OCR部件不能
工作
。我安装了Tesseract,它也
在
正常
工作
。当我试图发送一个有
图像
的
pdf时,我得到以下信息。警告:除非您将TesseractOCRParser从默认解析器中排除在外,否则将安装Tesseract OCR并将其自动应用于
图像
f iles。Tesseract可能会大大减慢内容提取
的
速度(
TIKA
-2359)。从
Tika
1.15 (和以前<em
浏览 1
提问于2018-08-02
得票数 3
回答已采纳
1
回答
在
尝试解析具有文本包含
图像
的
pdf时使用
Apache
tika
解析器
的
问题
、
、
、
、
我使用这两个依赖项:-
tika
核心2.6.0
tika
解析器标准包2.6.0 .Parsing在这些情况下很好地
工作
:- pdf文件和文本。pdf文件与
图像
。文本文件和其他扩展名。对于下面的用例- pdf文件和
图像
中
的
文本,pdf分析器运行时异常
的
解析失败。全错误堆栈跟踪:- org.
apache
.
tika
.parser.Composi
浏览 19
提问于2022-11-11
得票数 0
3
回答
在
Java/Groovy
中
验证文件/获取真实
的
文件类型?
、
、
、
我需要确定一个文件是否属于一组给定
的
真类型,我想知道做这件事
的
最好方法是什么。有什么想法吗?
浏览 1
提问于2011-03-09
得票数 3
回答已采纳
1
回答
使用unpack方法从
tika
python模块发出警告消息
、
、
、
我目前正在使用
tika
从pdf文件中提取文本。我
在
tika
模块中找到了一个非常快速
的
方法。这种方法称为unpack。这是我
的
密码:然而,偶尔(并不总是如此!)重新尝试之后,代码就开始
工作
了。然而,我不明白警告,也需要时间来重试。有人知道我为什么会收到这个警告吗? 这是github页
浏览 0
提问于2018-11-02
得票数 6
回答已采纳
1
回答
无法使用Lucee通过
Apache
Tika
提取文本
、
、
我想从pdf,docx等通过Lucee 5+ (5.2.9)提取文本,但不幸
的
是
,我得到了空
的
结果集。我使用了几个 (Java1.8.0
的
可运行jar ),它们可能适合我
的
特定Lucee和Java需求,但结果集始终是空
的
。return {}; var parser = CreateObject( "java", "org.
apache
.
tika
.pa
浏览 6
提问于2022-05-19
得票数 0
回答已采纳
2
回答
使用
Apache
Tika
从PDF中提取
图像
、
、
Apache
Tika
1.6能够从PDF文档中提取内联
图像
。然而,我一直
在
努力让它
工作
。我已经能够通过使用自定义解析器(构建在AutoParser上)从其他文档类型中提取
图像
,将文档转换为超文本标记语言,然后将
图像
单独保存出来。然而,当我尝试使用PDF时,
浏览 12
提问于2014-09-11
得票数 4
1
回答
(
如何
)我可以使用
Apache
搜索.DOC、.PDF或.JAVA (等等)为一个短语归档?
、
、
、
、
但是,虽然它允许复杂
的
文件名模式匹配(.DOC*, .PDF, .XL*, .TXT, .XML
是
合法输入),但Searchy不能搜索文件
的
CONTENTS
中
的
单词和短语,比如private protected这个链接
的
简介让我认为
Apache
Tika
是
我应该在Searchy中使用
的
。我不知道
如何
明智地使用它,但是如果我能够弄清楚
如何
处理
一个文件以查看它是否包含
浏览 4
提问于2015-08-08
得票数 0
回答已采纳
1
回答
使用nutch爬行
图像
及其元数据并将其编入solr
、
、
、
、
我想建立一个迷你
图像
为基础
的
搜索引擎,我可以提供
图像
文件,它将搜索类似的
图像
在solr。我使用nutch作为爬行部分,并将数据索引到solr
中
。我已经修改了nutch conf文件,比如- <field name=&
浏览 1
提问于2019-04-09
得票数 0
回答已采纳
1
回答
Spark - Scala:解析和提取同时包含文本和
图像
的
文档- .doc、.docx文件
、
我有几个文件(doc,docx文件),其中包含
图像
和文本。我想解析这些文件并提取内容,有或没有
图像
细节。Exception in thread "main" java.lang.NoSuchMethodError: org.
apache</em
浏览 9
提问于2017-07-08
得票数 0
回答已采纳
1
回答
如何
在
Apache
Tika
中
启用日志或确定正在调用哪些解析器
我想知道电话里发生了什么我尝试使用所有可能
的
图像
和自动解析器,但它与从该命令接收
的
输出不匹配。
浏览 2
提问于2014-04-29
得票数 0
回答已采纳
1
回答
使用
Apache
时
的
NoSuchMethodError
使用
Apache
提取JPEG
图像
的
元数据时遇到以下错误at org.
apache
.
tika
.parser.jpeg.JpegParser.parse(JpegParser.java:56)at org.
apache
.
tika
.parser.Compo
浏览 5
提问于2013-09-19
得票数 3
回答已采纳
5
回答
在
windows XP上运行
的
开源OCR库
我
在
找
在
windows XP上运行
的
开放源码
的
OCR库。我需要这为
图像
和PDF
的
工作
。大多数情况下,我想从java接口这个库。你知道有没有可用
的
东西? 致以问候。
浏览 13
提问于2013-04-24
得票数 0
3
回答
如何
配置
Tika
的
pom.xml以停止获取所有许可证依赖警告?
、
、
、
当我尝试使用这些警告
的
时候,我会收到来自
Tika
的
所有警告: 2018年2月24日9: 24 :35 org.
apache
.
tika
.config.InitializableProblemHandlertiff文件将不会被
处理
,请参见
中
的
可选依赖项。J2KImageReader未加载。将不
处理
JPEG2000文件。有关可选依赖项,请参见。有关正确
的
版本,请参见
tika
-解析器/头. th
浏览 1
提问于2018-02-25
得票数 8
1
回答
Tika
调用
的
问题
、
(excel
工作
表
中
的
第5列包含存在于我
的
文件系统
中
的
文件名)我循环遍历表格
的
各行(使用POI提取单元格
的
内容),并为每一行创建
Tika
的
实例,然后使用
Tika
"parseToString( file)“解析
在
第5列命名
的
文件,当文件
是
Office文档( excel、ppt、word)时,我收到以下错误: Exception in t
浏览 0
提问于2011-09-07
得票数 1
回答已采纳
1
回答
用
Tika
编译应用程序
的
Java 13问题加载模块
、
、
、
我正在尝试将使用
Tika
的
Java应用程序从OracleJDK 1.8迁移到OPenJDK 13。 我
的
IDE
是
Eclipse。为了能够使用
Tika
类,如AbstractParser、Detector等,我
在
module-info.java
中
添加了requires org.
apache
.
tika
.core;。我
的
代码还使用类org.
apache
.
tika
.parser.pdf.PD
浏览 4
提问于2020-06-05
得票数 0
1
回答
如何
使用
Apache
Tika
Server从PDF中提取内联
图像
并将其保存为文件?
、
我在对http://localhost:9998/
tika
的
PUT请求中使用了以下标头"X-
Tika
-OCRLanguage", "eng""X-
Tika
-PDFOcrStrategy&q
浏览 48
提问于2021-06-02
得票数 0
1
回答
从阿帕奇·蒂卡开始吗?
、
、
、
我想编写一个使用
Apache
Tika
下载网页文本内容
的
Java web爬虫,但我
是
使用
Apache
项目的新手,而且我还没有找到明确
的
源代码来明确
如何
将
Tika
集成到程序
中
。根据我从互联网上收集到
的
信息,我已经
在
命令行中使用Maven构建了
Tika
,但是我不知道从哪里开始使用
Tika
类(?)比如我
的
Java程序
中
的</e
浏览 3
提问于2013-07-23
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
CNN 是如何处理图像中不同位置的对象的?
卷积与FFT在图像处理中的应用
【译】Arc在Rust 中是如何工作的
超分辨率技术在图像处理中的应用
使用Apache Tika识别文件类型
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券