首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2024 年 最佳 JavaScript PDF 阅读器

我们涵盖了流行的开源选项,如 PDF.js 和 React PDF,以及三种商业选择: ComPDFKit for Web、PSPDFKit for Web 和 PDFTron WebViewer。...开源JavaScript PDF阅读器您可以使用开源库将PDF阅读器嵌入到Web应用程序或网页中,不仅可以从网站或网页打开PDF,还可以更好地控制文档的显示方式。...PDF.js被广泛使用,在npm上每周下载量达到230万次。它是一个增强网站功能的宝贵工具,Firefox使用它来本地打开PDF。优点• 直观的界面:PDF.js具有易于使用的阅读器UI。...PDFTron WebViewerPDFTron WebViewer(也称为Apryse WebViewer)是一个JavaScript PDF文档SDK,可让您将高级文档处理作为任何Web应用程序的一部分...• 包含跟踪文档查看并自动将数据传输到第三方服务器的机制。定价PDFTron WebViewer是一款商业许可的产品,其销售团队为每位客户提供定制的定价。通常,定价相对较高。

28010

58岁PDF发明人离世!他给男友订了一架直升机,从此相伴13年

Paul介绍说,Alan最早开始接触计算机,是在高中,当时一位老师让他坐在Commodore 64前面,从此新世界的大门向他打开。...Alan的编程是自学的,他从未在学校正式学过计算机科学或工程学。 根据他的LinkedIn,他毕业后不久就从电影转向了技术。...PDF是怎样发明的? 今天的你,一定很难想象没有PDF的世界会是什么样子。 其实,PDF(可移植文档格式 )直到1990年代才被发明出来。...从那之后,人们节省了大量的宝贵时间和纸张——从扫描文档到电子书,从表格到工资单,PDF使用户能够轻松地查看、打印、评论和交换文档。...在PDF出现之前,通过电子邮件发送全文和图形文档,对大多数人来说都是天方夜谭。 在20世纪90年代初,企业、政府机构和大学已经在使用局域网来共享数字文件了。

25220
您找到你想要的搜索结果了吗?
是的
没有找到

Nougat:一种用于科学文档OCR的Transformer 模型

pdf是互联网上第二大使用的数据格式,占信息的2.4%,经常用于文档传递。尽管它们被广泛使用,但从PDF文件中提取信息可能很困难,特别是在处理像科学研究文章这样高度专业化的材料时。...Nougat基本上是一个基于Transformer的模型,用于将文档页面的图像(特别是来自pdf的图像)转换为格式化的标记文本。...该团队总结了他们的主要贡献如下- 发布预训练模型:创建可以将pdf转换为简单的标记语言的预训练模型。这个预训练的模型在GitHub上公开,任何人都可以访问它以及相关代码。...数据集创建管道:描述了一种构建数据集的方法,将PDF文档与其相关的源代码配对。这种数据集开发方法对于测试和改进Nougat模型至关重要,也可能对未来的文档分析研究和应用有用。...仅依赖于页面的图像:也就是说这个模型只要pdf的截图就可以了,这使得它成为一种灵活的工具,可以从各种来源提取内容,即使原始文档没有数字文本格式,也可以使用扫描的纸张和书籍进行处理。

50120

Meta祭出Nougat,PDF格式转换,公式表格精准识别,扫描版文档也可以

即便文档凹凸不平,也不碍事,公示格式照样重现。 还有PDF中的表格,也能原模原样搬过来。 不过有柱状图的文档,Nougat暂时还不能呈现。 这么神的科研利器,究竟是什么来头?...要知道,除了HTML之外,PDF是互联网上第二大重要的数据格式,访问量占比为2.4%。 然而,对于科研人员最不便的是,存储在这些文件中的信息很难提取为任何其他格式。...这一模型不需要任何OCR相关的输入或模块,文本由网络隐式识别。 编码器 视觉编码器接收文档图像 ,裁剪边距并调整图像大小,以适合大小(H,W)的固定矩形。...该模型输出一个嵌入补丁 的序列,其中d是潜在维度,N是补丁的数量。 解码器 使用具有交叉注意力的Transformer解码器架构将编码图像z解码为token序列。...为了训练模型,团队使用了来自arxiv、PubMed Central等平台的科学论文PDF数据集,以及来自作者的相应LaTeX源代码。 这一数据集总共超过800万页组成。

47720

北航成AAAI 2021最大赢家,两篇一作斩获最佳论文、提名奖,研究皆与Transformer相关

本文设计了一种专为LSTF(长序列时间序列预测)设计的基于Transformer模型Informer,来解决Transformer在应用于LSTF时存在一些严重的问题。...比如二次时间复杂度、较高的内存使用量和编解码器结构的固有限制等。 Informer具有三个显著特点:采用ProbSparse自关注机制、自注意力提炼、生成式解码器。 ? △Informer模型 ?...第一作者是来自达特茅斯学院计算机科学系的Ruibo Liu,主要研究是通过强化校准来减轻语言模型中政治偏见问题。...杨强教授是 AAAI 大会历史上第二位大会主席,也是担任此职位的首位华人。 ? 本次会议共接收了1696篇,接收率近21.4%,其中有70.6%是学生论文。 ?.../2012.03083.pdf https://arxiv.org/pdf/2009.12947.pdf https://arxiv.org/pdf/2004.11207.pdf https://arxiv.org

44710

PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!

1.导读 随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。...针对开发者的需求,飞桨文字识别套件PaddleOCR全新发布PP-StructureV2智能文档分析系统,支持一行命令实现PDF转Word功能,文字、表格、标题、图片都可完整恢复,一键实现PDF编辑自由...图1 PDF文件转Word文件效果图 PP-StructureV2智能文档分析系统升级点包括以下2方面: 系统功能升级 :新增图像矫正和版面复原模块,支持标准格式pdf和图片格式pdf解析!...(GitHubID:whjdark)基于最新发布的PP-StructureV2智能文档分析系统,开发了一款PDF转Word小工具,导入PDF文件可一键转换为可编辑Word,支持文字、表格、标题、图片的完整恢复...图8 PDF文件转Word文件操作流程演示 软件的使用十分简单,下载后解压exe文件,打开图片或PDF文件,点击转换后可对图片型PDF文件进行OCR识别得到Word文件,或者通过PDF解析功能直接获得转换后的

5.9K10

明略科技HAO图谱Open API:开放企业级知识图谱构建能力

7 月 11 日,在 2020 WAIC 世界人工智能大会上,明略科技 HAO 图谱,作为目前世界上第一个语音实时生成图谱的企业级知识图谱开发工具包,首次公开亮相,成功入围了大会最高奖项 SAIL 奖(...HAO 图谱,可以独立运行,也可交付给企业技术团队进行二次开发,核心模块包括语音流监听,语音转文本,标点预测,口语顺滑,文本补全,实体关系抽取,实体对齐,以及图谱话题切换。 ?...领域图谱包括:由大量实例组成的数据图谱、由因果关系组成的因果图谱、由领域本体结构和领域词表组成的语义工具; 图谱增强的应用:针对领域内的特定场景需求,基于图谱做可视化交互、分类、检索、推荐、文本生成等特定任务...目前 HAO 图谱开放的 Text2KG API 接口,提供了文本转图谱的能力,但后台还做了一些面对 PDF、PPT、word 等半结构化文档的信息抽取接口。...HAO 图谱所提供的模型,既包含通用模型,也包含特定领域的模型,如汽车、奶粉、美妆等。

94930

学术党狂喜,Meta推出OCR神器,PDF、数学公式都能转

我们平时在阅读论文或者科学文献时,见到的文件格式基本上是 PDF(Portable Document Format)。据了解,PDF 成为互联网上第二重要的数据格式,占总访问量的 2.4%。...Nougat 基于 Transformer 模型构建而成,可以轻松的将 PDF 文档转换为 MultiMarkdown,扫描版的 PDF 也能转换,让人头疼的数学公式也不在话下。...预训练期间,还加入了部分行业文档库 (IDL)。...词袋匹配:首先,研究团队使用 MuPDF 从 PDF 中提取文本行,并对其进行预处理,删除页码和页眉 / 页脚。然后使用词袋模型与 TF-IDF 向量化器和线性支持向量机分类器。...将模型拟合到以页码为标签的 PDF 行。然后,他们将 LaTeX 源代码分成段落,并预测每个段落的页码。理想情况下,预测将形成阶梯函数,但在实践中,信号将有噪音。

56340

【AI可能真的要代替插画师了】复旦同济用cGAN生成动画人物

网站:MakeGirls.moe(已有训练好的模型打开就可以尝试生成) 论文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf...,打开一看,论文主要是通过各式属性生成二次元人物的头像,使用的方法是cGAN,效果非常impressive。 ?...更加令人兴奋的是,作者搭建了一个网站,任何人都能随时利用训练好的模型生成图像,进行实验!网站的地址为:MakeGirls.moe。 打开网站后需要等待进度条加载完毕,这个时候是在下载模型: ?...聊聊conditional GAN与txt2img模型),这两篇文章都是以生成二次元人物来举例,但是生成的结果都比较差,只能看出大概的雏形。...最后附上文中提到的一些资源: 网站:MakeGirls.moe(已有训练好的模型打开就可以尝试生成) 论文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf

1.6K50

腾讯轻量+宝塔搭建文档在线预览项目kkFileView

一、使用的服务 1.腾讯云 地域和可用区 上海 | 上海二区 套餐类型 通用型 实例规格 CPU: 2核 内存: 4GB 系统盘 60GB SSD云硬盘 流量包 1000GB/月(带宽:6Mbps...该项目使用流行的spring boot搭建,易上手和部署,基本支持主流办公文档的在线预览,如doc,docx,Excel,pdf,txt,zip,rar,图片等等 三、项目特性 支持 office, pdf..., cad 等办公文档 支持 txt, xml(渲染), md(渲染), java, php, py, js, css 等所有纯文本 支持 zip, rar, jar, tar, gzip 等压缩包 支持...spring-boot 开发,预览服务搭建部署非常简便 rest 接口提供服务,跨语言、跨平台特性(java,php,python,go,php,….)都支持,应用接入简单方便 抽象预览服务接口,方便二次开发...随后即可访问 如果需要更改配置如开启https则需要更改配置文件application.properties,该文件所在位置在/www/server/docker/overlay2 进行搜索 打开文件进入后更改以下代码

1.3K30

Nougat来了,能否成为PDF格式转换的新神器?

据论文介绍,PDF 也已经成为互联网上第二重要的数据格式,占总访问量的 2.4%。...Nougat 基于 Transformer 模型构建而成,可以轻松地将 PDF 文档转换为 MultiMarkdown,扫描版的 PDF 也能转换,上面这些让人头疼的数学公式也不在话下。...原 PDF 转换后 再看看对表格和公式的处理,也是十分完美: 原 PDF 转换后 同时,不仅是正常的 PDF 文档,扫描件也一样可以处理: 怎么样,总的看下来 Nougat 的效果还是十分惊艳的...markup language. ”团队向社区了开源了相关的预训练模型,可以将 PDF 转换为简单的标记语言。...这种数据集开发方法对于测试和完善牛轧糖模型至关重要,可能对未来的文档分析研究和应用有用,这里我们后面也会一起来瞧一瞧。

54120

总结|哪些平台有大模型知识库的Web API服务

截止2023/12/6 笔者个人的调研,有三家有大模型知识库的web api服务: 平台 类型 文档数量 文档上传并解析的结构 api情况 返回页码 文心一言 插件版 多文档 有问答api,文档上传是通过网页进行上传...有,而且是具体的chunk id,需要设置verbose参数 通义千问 插件版 单文档pdf解析】插件单文档问答api,文档只能用url模式,问答的方式可以总结、可以随意问答 无 星火大模型 知识库.../knowledge 先创建知识库,然后上传文档,还可以二次修改 可以自定义PDF分段方式: 对于不合理的片段可以进行删除: 1.2 插件-pdf解析 api文档地址: https://cloud.baidu.com...】插件: 3 星火大模型 文档地址 涵盖了三个web api: 文档上传 文档总结 文档问答 具体可参考博客:讯飞星火知识库文档问答Web API的使用(二) 在星火大模型的sparkdesk版面:...4 智谱 地址: https://chatglm.cn/ 看上去是单文档问答;对于上传文档好像没看到地方进行二次修改。

50310

零压力部署:构建你的文档在线预览项目-kkFileView

腾讯云轻量应用服务器kkFileView实现在线预览文档 前言 也是日常工作中需要用到的一个工具,之前是用的微软的,然后有时候打开特别慢,所以就想着找一找开源的来自建,刚好看到了这个项目。...可扩展性:项目抽象了预览服务接口,便于二次开发,方便添加其他类型文件的预览支持,使得项目具有良好的可扩展性。...软件模型文件、PDF、Xmind软件模型文件、BPMN工作流文件、邮件文件、图书文档、3D模型文件、CAD模型文件、纯文本文件、压缩包、各种图片预览、音视频格式文件等,使得项目具有广泛的文件类型支持 2...,然后注册绑定一下宝塔账号,然后在左边栏打开docker,第一次会提示安装,我们点击进行安装,然后等待提示即可。...同时,该项目的可扩展性也为您未来可能的需求变化提供了保障,使得您可以根据实际情况进行二次开发,以满足特定的预览需求。 希望本部署教程能够为您提供有益的指导,并为您的项目或业务增添价值。

63121

AI可能真的要代替插画师了……

(论文地址:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf),打开一看,论文主要是通过各式属性生成二次元人物的头像,使用的方法是...更加令人兴奋的是,作者搭建了一个网站,任何人都能随时利用训练好的模型生成图像,进行实验!网站的地址为:MakeGirls.moe。 打开网站后需要等待进度条加载完毕,这个时候是在下载模型: ?...技术细节 我之前也写过两篇文章,一篇介绍了GAN的原理(GAN学习指南:从原理入门到制作生成Demo),一篇介绍了cGAN的原理(通过文字描述来生成二次元妹子!...聊聊conditional GAN与txt2img模型),这两篇文章都是以生成二次元人物来举例,但是生成的结果都比较差,只能看出大概的雏形。...最后附上文中提到的一些资源: 网站:MakeGirls.moe(已有训练好的模型打开就可以尝试生成) 论文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf

800100

AI 可能真的要代替插画师了……

(论文地址:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf),打开一看,论文主要是通过各式属性生成二次元人物的头像,使用的方法是...打开网站后需要等待进度条加载完毕,这个时候是在下载模型: ? 这里的按钮的含义都比较简单,总的来说我们要先选定一些属性(完全随机也是可以的),然后点击左侧的generate按钮生成: ?...技术细节 我之前也写过两篇文章,一篇介绍了GAN的原理(GAN学习指南:从原理入门到制作生成Demo),一篇介绍了cGAN的原理(通过文字描述来生成二次元妹子!...聊聊conditional GAN与txt2img模型),这两篇文章都是以生成二次元人物来举例,但是生成的结果都比较差,只能看出大概的雏形。...最后附上文中提到的一些资源: 网站:MakeGirls.moe(已有训练好的模型打开就可以尝试生成) 论文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf

62080

AI 可能真的要代替插画师了……

(论文地址:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf),打开一看,论文主要是通过各式属性生成二次元人物的头像,使用的方法是...打开网站后需要等待进度条加载完毕,这个时候是在下载模型: ? 这里的按钮的含义都比较简单,总的来说我们要先选定一些属性(完全随机也是可以的),然后点击左侧的generate按钮生成: ?...技术细节 我之前也写过两篇文章,一篇介绍了GAN的原理(GAN学习指南:从原理入门到制作生成Demo),一篇介绍了cGAN的原理(通过文字描述来生成二次元妹子!...聊聊conditional GAN与txt2img模型),这两篇文章都是以生成二次元人物来举例,但是生成的结果都比较差,只能看出大概的雏形。...最后附上文中提到的一些资源: 网站:MakeGirls.moe(已有训练好的模型打开就可以尝试生成) 论文:https://makegirlsmoe.github.io/assets/pdf/technical_report.pdf

50230

基于ERNIELayout&PDFplumber-UIEX的多方案学术论文信息抽取

1.基于ERNIE-Layout的DocPrompt开放文档抽取问答模型 ERNIE-Layout以文心文本大模型ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,...考虑到文档智能在多语种上商用广泛,依托PaddleNLP对外开源业界最强的多语言跨模态文档预训练模型ERNIE-Layout。...metadata是一个包含pdf信息的字典。 pages是一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。...UIE-X延续UIE的思路,基于跨模态布局增强预训练模型文心ERNIE-Layout重训模型,融合文本、图像、布局等信息进行联合建模,能够深度理解多模态文档。...UIE-X延续UIE的思路,基于跨模态布局增强预训练模型文心ERNIE-Layout重训模型,融合文本、图像、布局等信息进行联合建模,能够深度理解多模态文档

67950

基于ERNIELayout&pdfplumber-UIE的多方案学术论文信息抽取

1.基于ERNIE-Layout的DocPrompt开放文档抽取问答模型 ERNIE-Layout以文心文本大模型ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,...考虑到文档智能在多语种上商用广泛,依托PaddleNLP对外开源业界最强的多语言跨模态文档预训练模型ERNIE-Layout。...metadata是一个包含pdf信息的字典。 pages是一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。...UIE-X延续UIE的思路,基于跨模态布局增强预训练模型文心ERNIE-Layout重训模型,融合文本、图像、布局等信息进行联合建模,能够深度理解多模态文档。...UIE-X延续UIE的思路,基于跨模态布局增强预训练模型文心ERNIE-Layout重训模型,融合文本、图像、布局等信息进行联合建模,能够深度理解多模态文档

1K30

Swift 中的幻象类型

例如,我们可能有一些API,只有在调用给定格式的文档时才有意义——比如这个打开文本编辑器的函数,它假定任何传入它的Document都是文本文档: func openTextEditor(for document...(HTML毕竟只是文本),但试图以这种方式打开一个PDF,很可能会导致呈现出完全无法理解的东西,我们的文本编辑功能将无法工作,我们的应用程序甚至可能最终崩溃。...然而,虽然这对文本和HTML文档很有效,但由于PDF文档在我们的应用程序中是不可编辑的——当遇到PDF时,我们将被迫抛出一个错误,触发一个断言,或以其他方式失败: func openEditor(for...由于我们现在使用一个协议来表示所有的文档格式,我们将需要为我们的三种文档类型中的每一种编写完全重复的模型实现,以及为我们将来可能增加的任何其他格式提供支持。...我们在这里看到的是一种被称为幻象类型的技术——当类型被用作标记,而不是被实例化来表示值或对象时。事实上,由于上述枚举都没有任何公开的情况,它们甚至不能被实例化!

1.5K30

SCIP | 数学规划求解器SCIP超详细的使用教程「建议收藏」

linear and nonlinear) programs GCG generic branch-cut-and-price solver 用户可以使用建模语言ZIMPL轻松生成线性,混合整数和混合整数二次约束的规划模型...0) 好了现在兴高采烈打开命令行,输入SCIP: 纳尼?剧本好像不是这么写的啊。 是什么问题呢?...1、进入Python,导入相应的模块: >> from pyscipopt import Model 2、创建一个实例模型. >> model = Model("Example") # model name...2) 打开编译器,小编这里还是用VS2017作为演示,新建一个空项目。...下面进行代码测试,下面的代码实例了很多模型的求解过程: 找到之前在GitHub下载的CSIP项目的解压文件,把test目录的代码文件复制到vs的项目目录: 同样,把这两文件添加到源代码里面: *test.c

10.5K41
领券