首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软开源的 Python 工具,用于将各种文件和办公文档转换为 Markdown 格式,适用于索引、文本分析等场景。

markitdown

由微软开源的 Python 工具,用于将各种文件和办公文档转换为 Markdown 格式,适用于索引、文本分析等场景。

Github地址

https://github.com/microsoft/markitdown

支持的文件格式:

• PDF

• PowerPoint

• Word

• Excel

• 图片(EXIF 元数据和 OCR)

• 音频(EXIF 元数据和语音转录)

• HTML

• 文本格式(CSV, JSON, XML)

• ZIP 文件(遍历内容)

安装方法:

• 使用 pip 安装:pip install markitdown

• 或从源代码安装:pip install -e .

使用方式:

1.命令行:

markitdown path-to-file.pdf > document.md

或者使用-o指定输出文件:

markitdown path-to-file.pdf -o document.md

也可以通过管道传递内容:

cat path-to-file.pdf | markitdown

1.Python API:

使用大型语言模型进行图像描述时,提供llm_client和llm_model:

1.Docker:

批量处理多个文件:示例脚本展示了如何在单次运行中将多个文件转换为 Markdown 格式。该脚本处理目录中的所有支持的文件,并创建相应的 Markdown 文件。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaWpTeoU_qEBEJgYtwDBek0w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券