首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python读取pdf提取文字和图片

问题描述 如下图所示,一份pdf有几十页,每页九张图片, 提取出图片并用图片下方的文本对图片命名 主要涉及问题: 图片提取 文本识别 借鉴了上面文本识别的资料,上面图片提取的顺序不一致,没办法把两个结合起来实现我的需求...文本信息 def parse_pdf_txt(pdf_path,code_str): # 二进制读取pdf fp = open(pdf_path, 'rb') #...,page_path) # 提取文本信息 txt_data = parse_pdf_txt(pdf_path,code_str) # 把提取到的文字 保存到本地 # txt_data.to_excel...(os.path.join(fina_path,"pdf文字信息.xlsx"),index=False) pic_name = save_product_pic(txt_data,product_path...,page_path) # 把提取到的文字 整理后保存到本地-合并成一列,并只保留图片信息 pic_name.to_excel(os.path.join(fina_path,"pdf文字信息.xlsx

7.5K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用pdfminer提取PDF文件中的文字

    对于pdf的编程操作而言,分为读和写两大类,其中读是相对简单的一种,比如读出pdf文件中的文字,写是比较难的,除了文字,图片等基本元素,最重要的是排版的样式控制,而编程还无法满足样式的灵活性。...本文主要介绍pdf读取操作中的一种应用,从PDF文件中提取文字,可以通过pdfminer模块来实现,安装方式如下 pip install pdfminer 该模块同时还提供了一种,命令行的脚本程序,可以方便的提取...pdf中的文字,用法如下 python pdf2txt.py input.pdf 如果提取出文字之后,需要进一步操作,最好还是通过脚本对程序进行处理,在脚本中实现文字提取的代码如下 >>> from pdfminer.pdfinterp...interpreter.process_page(page) ... >>> device.close() >>> outfp.close() 只需要简单的十几行代码,就可以提取出对应的文字,然后再根据需求进行后续处理...,比如将提取出的文字, 利用python-docx模块输入到word文档中,从而实现pdf到word文档的转换,也可以提取pdf中的表格文字,写入到excel中。

    5.4K10

    使用Python提取PDF文件里的内容

    PDF文件,是我们工作和学习中经常见到的文件。阅读体验非常好。 常用的Python操作PDF文件的第三方库,包含pyPdf、pyPdf2、pyPdf3、pyPdf4、pdfrw。...这次主要用pyPdf2来提取PDF文件属性信息,如:文件名、标题、作者、PDF创建者、页数。...现在让我们继续学习如何从PDF中提取一些信息。 二、提取内容 你可以使用PyPDF2从PDF中提取元数据和一些文本。当你对现有PDF文件执行某些类型的自动化时,这将非常有用。...让我们用PDF编写一些代码,学习如何访问这些属性: from PyPDF2 import PdfFileReader def extract_info(pdf_path): with open...(pdf_path,'rb') as f: pdf = PdfFileReader(f) information = pdf.getDocumentInfo()

    3.6K30

    【PDF批量提取内容改名】提取PDF指定可复制的内容并批量重命名PDF,提取识别文字并对PDF文件批量重命名,批量PDF文档指定识别提取区域

    本文主要解决问题:1、可复制内容的PDF,提取多个区域内容,对PDF重命名下面我们讲下这个发票如何提取区域内容对PDF进行重命名图片第一步、下载软件批量PDF多区域内容提取重命名百度网盘:https:/...pwd=8866腾讯网盘:https://share.weiyun.com/yw15BsM7第二步、打开软件导入文件,设定好提取的坐标,然后加载要修改的PDF文档如何获取PDF区域坐标,可以参考下面的小技巧第三步...,对于大量提取PDF区域文件内容来修改文件名的用户来说比较友好,PDF的内容置于文件第二页,第三页,也就是可以指定页的内容的提取,自定义提取PDF文档内的任意坐标,提取任意指定区域的内容,多区域进行组合...,进行拼接文件名,修改原有PDF文件名,可以对本次修改的坐标保存,下次修改同样的文件可以导入坐标和修改的文件就能执行要PDF内容要可以复制,不能复制的话就行不通,不能复制可以用wps进行文字识别处理下就行啦...,下面是图片识别文字的PDF的方法可以参考添加描述

    44710

    python自动化系列之提取pdf文字和图片

    在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性:无法提取文档中的文字提取PDF文字需要使用另外的库,如pdfplumbe提取PDF...中的图片需要使用fitz库使用pdfplumbe提取文字pdfplumbe使用可以用来解析PDF文件,获取其文本内容、标题、表格等的开源工具;开源代码地址:https://github.com/jsvine...extract_text_info(filepath): """ 提取PDF中的文字 @param filepath:文件路径 @return: """ with...()) #提取文字 table = page.extract_tables() #提取表格 print(table) for row in table:...,否则会报错安装:pip install fitz PyMupdf引入:import fitz使用fitz将pdf转为图片:def pdf2img(): import fitz '''pdf

    5.3K40

    怎么从PPT中提取出所有的文字内容

    碎碎念 又到了新闻稿生成的时候了,作为计算机类的学生,当然是使用那高端的NLP生成式AI大模型来解决这个文字上的工作啦!将PPT中的所有文字扔到GPT中,由GPT生成新闻稿,自己进行微调,完美!...不过问题来了,怎么复制PPT中的所有内容呢?不会吧不会吧?你不会还在一个个文本框复制粘贴吧?害其实我之前也是这样,不过搞着麻烦啊!...准备好你的一个或多个PPT,将其放到某个路径下,点击PPT上方菜单栏中的开发工具,点开visual basic工具,如下图: 点开后,你会看到一个样式超级土的IDE(我真的感觉他很有XP的风格),在上面的菜单栏中选择插入...里面就是所有的PPT中的文本框内容: 这种方法无法提取到备注中的内容,但是备注的内容用正常方法就可以提取出来啦,比如创建讲义,可以自行上网搜索搭配使用。 又多了一个偷懒小妙招!

    27510

    这个XML里的数据怎么提取不出来?

    前些天,有朋友在问,为什么这个XML中的数据用Power Query里的“分析-XML”功能提取不出来?...其实,显示这个错误的意思就是:这个不是标准的XML,Power Query里自然也不能准确识别。...但实际上又将每个元素(fromAcct.actNo……)进行了罗列,而用了同一个属性(a),所以,类似这种规则比较明显(某些系统开发过程中按需要自定义的格式)而又不是规范XML的情况,如果要用Power Query来提取其中的数据...我们就将原来分割成多个元素的非标准XML转变成了一个元素多个属性罗列在一起的XML,前后对比如下图所示: 经过这样的替换转换成标准的XML格式后,就可以用“分析-XML”功能来进行数据的提取了...: 另外还有Json格式的内容也可能会有类似的情况,大都可以通过类似的思路进行转换后来进行数据的提取。

    99720

    特征锦囊:怎么通过正则提取字符串里的指定内容?

    今日锦囊 怎么通过正则提取字符串里的指定内容? 这个正则表达式在我们做字符提取中是十分常用的,先前有一篇文章有介绍到怎么去使用正则表达式来实现我们的目的,大家可以先回顾下这篇文章。...图文并茂地带你入门正则表达式 我们还是用一下泰坦尼克号的数据集,大家可以在下面的链接去下载数据哈。...我们现在可以提取下这name里的称谓,比如Mr、Miss之类的,作为一个新列,代码如下: data['Title'] = data['Name'].map(lambda x: re.compile(",...*前面的字符为起点,到后面字符为终点的所有内容,直到返回所有 print(re.findall(r'xx....所以,看了这些后,应该就可以理解上面的pattern的含义了!

    2.5K10

    【拆分PDF重命名】将PDF按页拆分多个PDF文件,并用PDF里文字对文件批量重命名,python和腾讯api识别改名的完整代码和详细步骤

    以下是使用 Python 和腾讯云 OCR API 实现将 PDF 按页拆分多个 PDF 文件并用 PDF 里文字对文件批量重命名完整步骤和代码示例:步骤 1:准备工作安装必要的库:PyPDF2:用于拆分...开通腾讯云 OCR 服务:在腾讯云控制台开通通用文字识别服务。...): """ 使用腾讯云 OCR 识别图像中的文字 :param image: 图像对象 :return: 识别出的文字 """ cred = credential.Credential...pdf_page_to_image 函数:将拆分后的 PDF 页面转换为图像,以便进行 OCR 识别。ocr_image 函数:使用腾讯云 OCR 服务识别图像中的文字。...rename_pdfs 函数:根据 OCR 识别结果重命名拆分后的 PDF 文件。通过以上步骤,你可以实现将 PDF 按页拆分并根据其中的文字对文件进行批量重命名。

    9810

    自动提取图片中文字内容,这个开源免费软件送给你 | PA实战资源

    - 1 - 图片内容提取方法及问题 前面的文章《3分钟读取、汇总300个pdf文件内容!多简单!多快!...| PA实战应用》里,讲了使用Power Automate Destkop直接提取PDF文件内容的操作方式,但有朋友问,是否可以提取图片转成的PDF内容: 如上面回复,这里的核心其实并不是PDF内容的提取...而第1种是调用本机OCR引擎进行文字识别的,一般情况下我们可以直接使用,其中使用了开源的Tesseract开源OCR引擎,但是,默认情况下仅支持英语、德语、西班牙语、法语和意大利语等5种语言: 那中文怎么办...选择引擎、要识别的图片路径后,OCR引擎设置里,打开“使用其他语言”开关,语言缩写里填上“chi_sim”,选择语言数据包的路径即可,如下图所示: 经过上面的步骤,即可以提取到图片里的文字信息,然后我们可以添加...“将文本写入文件”的步骤,将识别的图片文字信息输出到一个文件里: - 3 - 图片文字提取效果 对于图片文字提取,大家最关心的一个问题是,提取的效果如何?

    5.7K20

    使用 DeepSeek R1 和 Ollama 搭建一个 RAG 系统(包含完整代码)

    你有没有想过,能不能像跟人聊天一样,直接问 PDF 文件或技术手册问题?比如你有一本很厚的说明书,不想一页页翻,只想问它:“这个功能怎么用?”或者“这个参数是什么意思?”...这篇文章教你如何用两个工具(DeepSeek R1 和 Ollama)来搭建一个智能系统,让它帮你从 PDF 里找答案。这个系统叫 RAG(检索增强生成),简单来说就是:先找资料,再生成答案。...精准:每次只从 PDF 里找 3 个相关片段来回答问题,避免瞎编。 本地运行:不用联网,速度快,隐私也有保障。 你需要准备什么? Ollama:一个让你在电脑上本地运行 AI 模型的工具。...用 Streamlit 做一个上传按钮,把 PDF 传上去,然后用工具提取里面的文字。...总结 用这个系统,你可以轻松地从 PDF 里提取信息,像跟人聊天一样问问题。赶紧试试吧,释放 AI 的潜力!

    1.1K20

    使用 DeepSeek 和 Ollama 搭建一个本地知识库系统(包含完整代码)

    你有没有想过,能不能像跟人聊天一样,直接问 PDF 文件或技术手册问题?比如你有一本很厚的说明书,不想一页页翻,只想问它:“这个功能怎么用?”或者“这个参数是什么意思?”...这篇文章教你如何用两个工具(DeepSeek R1 和 Ollama)来搭建一个智能系统,让它帮你从 PDF 里找答案。这个系统叫 RAG(检索增强生成),简单来说就是:先找资料,再生成答案。...精准:每次只从 PDF 里找 3 个相关片段来回答问题,避免瞎编。 本地运行:不用联网,速度快,隐私也有保障。 你需要准备什么? Ollama:一个让你在电脑上本地运行 AI 模型的工具。...用 Streamlit 做一个上传按钮,把 PDF 传上去,然后用工具提取里面的文字。...总结 用这个系统,你可以轻松地从 PDF 里提取信息,像跟人聊天一样问问题。赶紧试试吧,释放 AI 的潜力! 完整代码可以在我的公众号后台回复: 901 ,获取。 ‍

    15710

    这52页pdf,顶10篇python自动化办公文章

    目录 章节一:python使用openpyxl操作excel 1、openpyxl库介绍 2、python怎么打开及读取表格内容?...1、PyPDF2和pdfplumber库介绍 2、python提取PDF文字内容 1)利用pdfplumber提取文字 2)利用pdfplumber提取表格并写入excel 3、PDF合并及页面的排序和旋转...1)分割及合并pdf ① 合并pdf ② 拆分pdf 2)旋转及排序pdf ① 旋转pdf ② 排序pdf 4、pdf批量加水印及加密、解密 1)批量加水印 2)批量加密、解密 ① 加密pdf ② 解密...提取文字和文字块儿 ① python-docx提取文字 ② python-docx提取文字块儿 3)利用Python向Word文档写入内容 ① 添加段落 ② 添加文字块儿 ③ 添加一个分页 ④ 添加图片...⑤ 添加表格 ⑥ 提取word表格,并保存在excel中(很重要) 3、利用Python调整Word文档样式 1)修改文字字体样式 2)修改段落样式 ① 对齐样式 ② 行间距调整 ③ 段前与段后间距

    4K20

    Python自动化办公系列之Python操作PDF

    本章目录 章节二 python使用PyPDF2和pdfplumber操作pdf 1、PyPDF2和pdfplumber库介绍 2、python提取PDF文字内容 1)利用pdfplumber...提取文字         2)利用pdfplumber提取表格并写入excel      3、PDF合并及页面的排序和旋转 1)分割及合并pdf           ① 合并.../jsvine/pdfplumber),可以更好地读取PDF文件内容和提取PDF中的表格; 这两个库不属于python标准库,都需要单独安装; 2、python提取PDF文字内容 1)利用pdfplumber...提取文字 import PyPDF2 import pdfplumber with pdfplumber.open("餐饮企业综合分析.pdf") as p: page = p.pages[2...") 结果如下: 缺陷:可以看到,这里提取出来的表格有很多空行,怎么去掉这些空行呢?

    95130

    PDF文件怎么制作?这两个方法绝对好用

    PDF文件怎么制作?我们都知道相对于其他文件类型更具特殊性,PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。...该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高,而且需要在PDF相关的软件里才能打开。所以PDF文件怎么制作呢?...第一种方法:利用PDF编辑器 说到PDF怎么制作应该有一部分人能想到使用PDF编辑器,那么利用PDF编辑器制作PDF具体怎么做呢?下面我就来教教大家。...注:迅捷PDF编辑器不仅能对PDF文件进行编辑和制作,还可以完成PDF添加水印,PDF提取页面哦。...操作步骤(1) 我们直接在Word里编辑内容,然后点击文件中的“另存为”选择“保存类型”为PDF保存就可以了。

    11.1K30

    如何将 PDF 表格数据免费转换到 Excel ?

    这种 PDF 文件中大量的内容,都是文字。表格在其中,只占非常小的比例。 《如何用Python批量提取PDF文本内容?》...一文提供的工具pdf_extractor 会保留表格里面的数据,但是结构信息基本就被丢弃掉了。 表格转换,属于结构化数据提取。这和我当时文章所谈的主旨不同。所以我没有一一回复。...另一方面,我们也需要把部分结果,放在自己的论文里作为对比。而这些,如果都需要我们手动提取数据,然后再输入到程序中或者 Excel 里,会很低效。...我们需要一种简便的方法,帮助自己把 PDF 表格里面的信息,在尽可能保持格式的情况下,正确提取出来。 搜寻 既然有了需求,我就开始搜集信息。...调整 但是,有些复杂表格的提取中,原本不同的列,可能会被错误地放在一起。 例如选择这个表格的时候。 导出的结果就成了这个样子: 这怎么办呢? 其实,处理起来并不算困难。

    3.5K30
    领券