前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI办公自动化:批量将多个word文档中的表格提取并合并

AI办公自动化:批量将多个word文档中的表格提取并合并

作者头像
AIGC部落
发布2024-07-31 16:32:59
930
发布2024-07-31 16:32:59
举报
文章被收录于专栏:Dance with GenAI

有多个word文档,里面都是表格,要将其表格都提取出来,然后合并成一个。

在deepseek中输入提示词:

写一个Python脚本,完成批量提取word文档中表格的任务,具体步骤如下:

打开文件夹:D:\360AI浏览器下载 ;

读取里面所有的word文档;

将所有word文档中的表格复制到一个Excel文件中,合并成一个表格;

Excel文件名称为:AI算法备案列表20240718.xlsx,保存在文件夹:D:\360AI浏览器下载

注意:每一步都要输出信息到屏幕上

源代码:

import os

import docx

import pandas as pd

def extract_tables_from_word(file_path):

doc = docx.Document(file_path)

tables = []

for table in doc.tables:

data = []

for row in table.rows:

row_data = []

for cell in row.cells:

row_data.append(cell.text)

data.append(row_data)

tables.append(data)

return tables

def main():

input_folder = r'D:\360AI浏览器下载'

output_file = os.path.join(input_folder, 'AI算法备案列表20240718.xlsx')

all_tables = []

for file_name in os.listdir(input_folder):

if file_name.endswith('.docx'):

file_path = os.path.join(input_folder, file_name)

print(f"Processing file: {file_path}")

tables = extract_tables_from_word(file_path)

all_tables.extend(tables)

if all_tables:

df = pd.DataFrame()

for i, table in enumerate(all_tables):

temp_df = pd.DataFrame(table)

df = pd.concat([df, temp_df], ignore_index=True)

print(f"Saving to Excel file: {output_file}")

df.to_excel(output_file, index=False, header=False)

else:

print("No tables found in the Word documents.")

if __name__ == "__main__":

main()

在vscode中运行这个python程序,成功合并:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
ICP备案
在中华人民共和国境内从事互联网信息服务的网站或APP主办者,应当依法履行备案手续。腾讯云为您提供高效便捷的 ICP 备案服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档