首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MarkItDown:一键将各类文件转换为Markdown格式

本文预计阅读时间:3分钟

项目介绍

MarkItDown是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便用于 LLM 和相关的文本分析流程。

目前支持的文件类型如下:

- PDF

- PowerPoint

- Word

- Excel

- Images (EXIF metadata and OCR)

- Audio (EXIF metadata and speech transcription)

- HTML

- Text-based formats (CSV, JSON, XML)

- ZIP files (iterates over contents)

- Youtube URLs

- EPubs

详情:https://github.com/microsoft/markitdown

项目部署

构建虚拟环境

项目中提供了三种虚拟环境构建方法,使用其中之一即可。

https://github.com/microsoft/markitdown?tab=readme-ov-file#prerequisites

此处使用conda构建虚拟环境

conda create -n markitdown python=3.12

conda activate markitdown

安装markitdown

git clone git@github.com:microsoft/markitdown.git

cd markitdown

pip install -e 'packages/markitdown[all]'

使用

命令行方式

https://github.com/microsoft/markitdown?tab=readme-ov-file#usage

markitdown 需要转换的.pdf > 转换后的文件.md

Python API

参考:https://github.com/microsoft/markitdown?tab=readme-ov-file#python-api

Docker方式安装

参考:https://github.com/microsoft/markitdown?tab=readme-ov-file#docker

总结

个人认为,针对内容复杂的PDF转换到MarkDown,MarkItDown还是显得力不从心,建议使用MinerU,参考《神器MinerU推出客户端了》。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OHerK9WVIpo2XHgblx6rz4wQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券