首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java/Apache Tika:如何从URL获取文件的最后修改/创建属性

Java是一种广泛使用的编程语言,具有跨平台特性,可用于开发各种应用程序。Apache Tika是一个开源的Java库,用于提取和解析各种文档格式的元数据和内容。

从URL获取文件的最后修改/创建属性可以通过以下步骤实现:

  1. 使用Java的URLConnection类打开URL连接。URL url = new URL("文件URL"); URLConnection connection = url.openConnection();
  2. 获取文件的最后修改时间和创建时间。long lastModified = connection.getLastModified(); long creationTime = connection.getDate();
  3. 将时间戳转换为可读的日期时间格式。Date lastModifiedDate = new Date(lastModified); Date creationDate = new Date(creationTime);
  4. 使用SimpleDateFormat类将日期时间格式化为字符串。SimpleDateFormat dateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String lastModifiedStr = dateFormat.format(lastModifiedDate); String creationStr = dateFormat.format(creationDate);

最后,可以将获取到的最后修改时间和创建时间打印出来或者进行其他处理。

Apache Tika可以用于解析各种文档格式,包括PDF、Word、Excel、PowerPoint等。它可以提取文档的元数据(如作者、标题、关键字等)以及文本内容。Apache Tika还支持自动语言检测、文本摘要生成等功能。

推荐的腾讯云相关产品:腾讯云对象存储(COS)

腾讯云对象存储(COS)是一种高可用、高可靠、强安全的云端存储服务。它提供了简单易用的API,可以方便地将文件存储到云端,并通过URL获取文件的属性。腾讯云对象存储支持海量数据存储和访问,并提供了多种存储类型和数据处理功能,适用于各种场景,如网站托管、大数据分析、备份与归档等。

注意:本答案仅供参考,具体的技术实现和推荐产品可能因个人需求和环境而异。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Apache Tika命令注入漏洞挖掘

这是由于Java处理执行操作系统命令方式以及Apache Tika代码本身一些特性。但在最后,我们仍然可以使用Cscript.exe来执行操作。...0x01 对tika-server 1.17与1.18源目录进行并行递归比较。只返回一个已修改文件,如下部分。 ?...它使用一些变量来动态创建一个方法,该方法似乎设置了某个对象属性,并使用HTTP头来执行此操作。 ? 以下是此功能说明: ? 截图显示了不同属性前缀,并在此代码开头定义为静态字符串。 ?...这是来自“TesseractOCRParser.java“doOCR”函数,它将配置属性我们刚刚发现“TesseractOCRConfig”对象直接传递到一个字符串数组中,这些字符串用于构造“ProcessBuilder...另一个有趣发现是Tika实际上创建了2个临时文件,其中一个作为第一个参数被传递。 经过一些进一步调查后,我能够确认传递给命令第一个临时文件是我上传文件内容。

1.5K20

通过使用Apache Lucene和Tika了解信息检索 - 第1部分

在本教程中,您将学习: 如何使用Apache TikaAPI及其最相关功能 如何使用Apache Lucene API及其最重要模块开发代码 如何整合Apache Lucene和Apache Tika...(项目代码可供下载) 什么是Lucene和Tika? 根据Apache Lucene网站,Apache Lucene代表了一个开源Java库,可被用于大量文档集合中进行索引和搜索。...为了解析文档内容及其属性Apache Tika库是必要Apache Tika是一个库,它提供了一组灵活和强大接口,可用于任何需要元数据分析和结构化文本提取环境中。...Apache Tika关键组件是Parser(org.apache.tika.parser.Parser)接口,因为它隐藏了不同文件格式复杂性,同时提供了一种简单而强大机制来各种文档中提取结构化文本内容和元数据...Apache Tika拥有一个mimetype存储库和一组方案(MIME MAGIC,URL模式,XML根字符或文件扩展名任意组合)来确定特定文件URL或内容是否与其中一种已知类型相匹配。

2.2K20

推荐一款Apache开源文档内容解析工具

发现宣传有这些特色: 摘自Apache tika官方文档 在getting start 页面也列举了命令行工具使用,其他jar包和maven项目的结合,已有的文章已经很详细了: 如何使用tika...提取文件内容 当然,结合魔法,我相信我们获取相关技术速度会得到很大程度上提升。...下载完毕之后,直接java -jar启动即可: java -jar tika-app-2.9.1.jar 这里解析各种文件都是可以: 直接将文件拖拽到程序界面即可。...java -jar tika-app-2.9.1.jar fake-util.png -T 我们可以直接在命令行打开文件并规定格式,参考官方文档和.jar文件帮助文档。...那最后结果和直接GUI操作一样,我们代码也是可以直接粘贴出来或者输出导入到一个文件直接运行(当然,括号之类特殊字符还要改一些)。

33510

New Bing 编程提效实践 - 语言识别功能

一、背景 今天有个朋友在技术群里请教,“Java有啥比较好用语言检测工具吗,只要检测出非英文就行,目前试了language detector或者字符检测效果都不理想” 可以看到该同学耗费了很多时间...如果您想在Maven项目中使用 org.apache.tika.language.LanguageIdentifier类,您需要添加 tika-langdetect 模块依赖到您 pom.xml 文件中...根据搜索结果,org.apache.tika.language.LanguageIdentifier类已经在 Tika 2.0.0 版本中被移除,取而代之是org.apache.tika.language.detect.LanguageDetector...如果您想使用 Tika 2.x版本 tika-langdetect模块,您需要修改代码,使用 LanguageDetector接口和其实现类,如 OptimaizeLangDetector或 CommonsLang3LangDetector...2.2.3 寻找优化方法 既然最初代码示例中类已经废弃,我们提问如何使用 OptimaizeLangDetector 实现一样功能 How do you use OptimaizeLangDetector

77470

Java 近期新闻:Classfile API 草案、Spring Boot、GlassFish、Reactor 项目

OpenJDK 最近,甲骨文公司 Java 语言架构师 Brian Goetz 更新了 JEP 草案 828039,即 Classfile API,提供了一些背景信息,关于该草案将如何发展并最终取代...该 JEP 提议提供一个 API,用于解析、生成和转换 Java文件。它最初将在 JDK 中作为 ASM 内部替代品,并计划作为一个公共 API 开放。...Apache Tika Apache Tika 团队发布了其元数据提取工具包 2.4.1 版本。...Daemon 一起执行;允许在 TikaResource 类中把 Content-Length 头传递给元数据;支持用户把系统属性分叉进程扩展到分叉 tika-server 进程。...原文链接: https://www.infoq.com/news/2022/06/java-news-roundup-jun20-2022/ 点击底部阅读原文 访问 InfoQ 官网,获取更多精彩内容!

1.6K10

Java去掉html标签各种姿势

"); System.out.println(HTMLUtils.extractText(reader)); } 复制 2.4 使用Apache Tika import java.io.FileInputStream...; import java.io.InputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser...; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.Parser; import org.apache.tika.sax.BodyContentHandler...可以将资源路径文本类型文件(如json/html)读取成字符串 public class ResourceUtil { /** * 根据当前类路径,获取资源文件夹对应文件所有字符串...测试时读取资源文件可以使用第三节提供工具类。 如果正则表达式无法满足你需求,自己进一步优化即可。 如果其他方式仍然有特殊情况没有考虑到,可以自己先用正则去除这种特殊情况。

1.8K10

Java去掉html标签各种姿势

"); System.out.println(HTMLUtils.extractText(reader)); } 2.4 使用Apache Tika mport java.io.FileInputStream...; import java.io.InputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.parser.AutoDetectParser...; import org.apache.tika.parser.ParseContext; import org.apache.tika.parser.Parser; import org.apache.tika.sax.BodyContentHandler...(如json/html)读取成字符串 public class ResourceUtil { /** * 根据当前类路径,获取资源文件夹对应文件所有字符串 * *...测试时读取资源文件可以使用第三节提供工具类。 如果正则表达式无法满足你需求,自己进一步优化即可。 如果其他方式仍然有特殊情况没有考虑到,可以自己先用正则去除这种特殊情况。

2.3K20

Java 近期新闻:Loom 和 Panama 项目相关 JEP、JobRunr 5.1.0、Kotlin 1.7.0 预览

这很可能是最后一次维护发布,因为红帽公司计划在 2022 年 5 月 9 日那一周发布 Quarkus 2.9.0。要了解关于这个版本更多细节,请查阅变更日志。...要了解关于这些版本更多细节,请查看 3.11.7 和 3.14.3 版本发布说明。 Apache Tika Apache Tika 团队已经发布了他们元数据提取工具包 2.4.0 版本。...Tika 以前是 Apache Lucene 一个子项目,这个最新版本对依赖项做了一些安全升级。...然而,deeplearning4j 依赖不再打包到 JAR 文件 tika-dl 中,所以开发者必须自己提供。...该团队还发布了 Apache Tika 1.28.2,提供安全相关升级和常规依赖升级,并升级到 Apache POI 5.2.0(提供了更多来自 POI 解析器日志)。

1.1K30

3分钟带你通过 Go 语言实现 PDF 转 Word !

注:本例子适合将小文件纯文本 pdf 转换为 word 文档 演示环境: centos7 Apache/tika (解析pdf) go-tika (golang库) 1、首先下载Apache/tika...jar包,下载地址如下: #tika-server-standard-2.6.0.jar https://tika.apache.org/ 2、启动tika包,执行命令如下: #继续需要提前安装jdk...环境 nohut java -jar tika-server-standard-2.6.0.jar & #不一定非要通过此方式启动,通过docker也可以,看个人需求 3、查看进程对应端口9998,如图...= nil { panic(err) } //将pdf所有内容写入html文件) err = ioutil.WriteFile("....(context.TODO(), f) } 5、在main.go同级目录下创建文件夹readhtml,在文件夹中定义文件readhtml.go,内容如下: package readhtml import

49920

Java 近期新闻:更多 Log4Shell 声明,Spring 和 Quarkus 更新,值对象相关新 JEP

Camel、Camel Quarkus、Apache Tika 2.2.1、GraalVM Native Build Tools 0.9.9 小版本发布(point release)。...接口;@TenantId使用基于列多租户来标记定义租户属性;@AttributeBinderType允许自定义属性映射定义方式。...Apache Camel 阿帕奇(Apache)软件基金会 发布了Camel 3.7 版本系列中最后一个小版本。...Apache Tika Apache Tika 发布了其元数据提取工具包 2.2.1 版。...这个最新版本对 Gradle 插件进行了修复,即:如果缺少类路径条目,则会放松资源检测机制;一个与自定义二进制文件相关合适原生推理任务,即除main二进制文件和test二进制文件之外二进制文件

1.8K20

通过案例带你轻松玩转JMeter连载(25)

Ø 响应消息:响应短语,比如OK、Not Modified、Not Found等。 Ø 响应头:响应报文头部信息。 Ø 请求头:请求报文头部信息。 Ø URL样本。请求URL。...如果选择了“跟随重定向”,则包含重定向后URL。 Ø文档(文本):通过Apache Tika各种类型文档中提取文本。此选项开启也会严重影响性能,谨慎使用。...Ø bsh.args:用空格分隔字符串被保存到变量数组bsh.args。 脚本文件:包含BeanShell脚本文件文件名存在变量FileName中。...vars有的put、get方式,props都有;操作JMeter属性,该变量引用了JMeter配置信息,可以获取JMeter属性,它使用方法与vars类似,但是只能put进去String类型值,...√props.get("START.HMS");注:START.HMS为属性名,在文件jmeter.properties中定义。

58120

Java 近期新闻:结构化并发、Java 满 27 岁、Micronaut 3.5.0

OpenJDK JEP 405(记录模式预览)已经 JDK 19 Proposed to Target 状态提升到 Targeted 状态。...BellSoft 是 Liberica JDK(他们提供 OpenJDK 下游发行版)创建者。为了纪念这一时刻,他们回顾过去,审视现在,并展望了这门语言未来。...最后,最近发布 WildFly 27.0.0.Alpha1 认证请求已提交给 JDK 11 和 JDK 17。...Apache Tika Apache Tika 团队发布了其元数据提取工具包 1.28.3 版本。它以前是 Apache Lucene 一个子项目,最新版本带来了安全修复和依赖项升级。...原文链接: https://www.infoq.com/news/2022/05/java-news-roundup-may23-2022/ 点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

68120

- Apache Solr DataImport 远程命令执行分析

(通过JDBC)、RSS、Web 页面和文件中导入数据,并且可根据配置文件脚本对获取数据进行特定转换,同时这个模块配置文件不仅可以在服务端中通过配置文件指定,也可以用户请求 dataConfig...configoverlay.json 文件配置 以启用远程流相关选项 .enableStreamBody .enableRemoteStreaming 修改 test 为对应核心名 POST...dataConfig (配置信息)来进行获取,同时也可以根据配置信息中脚本对获取数据进行逐行转化 Poc 分析 Solr 支持 Dataimport 外部导入数据, 不过 dataconfig...,包含了来自使用 REST/XML 以及 RSS/ATOM FileDataSource:磁盘文件获取数据源 FieldReaderDataSource:如果字段包含xml信息时,可以使用这个配合XPathEntityProcessor...#doFullImport 方法 在该方法中首先会创建一个 DocBuilder 对象,DocBuilder 主要功能是给定配置中创建 Solr 文档,同时会记录一些状态信息。

98130

Java 近期新闻:Payara Platform 2022 路线图、OpenJDK JEP 草案、Gradle 7.4

Tika 2.3.0 及 Apache Tika 1.x 发布序列终结。...Hibernate 在通往 1.0 版本道路上,JReleaser(一种简化项目发布创建 Java 工具)第三个早期访问版本发布,其中包括一个针对创建 GitHub“桶”库修复,尽管事实上 remoteBuild...属性(默认设置为 false)没有被指定。...Gradle Gradle 公司发布了其广受欢迎构建工具 7.4 版本,新特性包括:改进在多个项目中创建单个测试报告或 JaCoCo 代码覆盖率报告特性;更新 Java 工具链,以支持 AdaptOpenJDK...InfoQ 后续会及时跟进,带来更详细新闻报道。 Apache Tika Apache Tika 团队发布了其元数据提取工具包 2.3.0 版本。

77320
领券