markitdown
由微软开源的 Python 工具,用于将各种文件和办公文档转换为 Markdown 格式,适用于索引、文本分析等场景。
Github地址
https://github.com/microsoft/markitdown
支持的文件格式:
• PowerPoint
• Word
• Excel
• 图片(EXIF 元数据和 OCR)
• 音频(EXIF 元数据和语音转录)
• HTML
• 文本格式(CSV, JSON, XML)
• ZIP 文件(遍历内容)
安装方法:
• 使用 pip 安装:pip install markitdown
• 或从源代码安装:pip install -e .
使用方式:
1.命令行:
markitdown path-to-file.pdf > document.md
或者使用-o指定输出文件:
markitdown path-to-file.pdf -o document.md
也可以通过管道传递内容:
cat path-to-file.pdf | markitdown
1.Python API:
使用大型语言模型进行图像描述时,提供llm_client和llm_model:
1.Docker:
批量处理多个文件:示例脚本展示了如何在单次运行中将多个文件转换为 Markdown 格式。该脚本处理目录中的所有支持的文件,并创建相应的 Markdown 文件。
领取专属 10元无门槛券
私享最新 技术干货