首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

分享5个开源文本文档处理工具

编辑/排版:卒見

处理文本文档,是工作中的必备技能。我们需要分享它、编辑它、标记它、转换它、搜索它,还需要谨慎细心让自己不要弄错它。今天给大家分享几个开源免费的文本文档处理工具。

01

FileCodeBox

一个基于FastAPI+SQLite3开发的文本和文件分享的服务

支持分享文件、口令提取文件等功能,无需注册即可完成文件提取。

你可以将文字、文件使用拖拽、粘贴或是点击上传的方式,放到该工具中,设置文件可保留天数,获取取件口令。

你可以将它当成一个文件快递柜,输入口令即可分享文本和文件内容。

02

doccano

一款开源的文本标记工具。提供文本分类、序列标记、情感分析、文本摘要等功能,帮助快速完成打标工作,支持中文和多人协作。

它可以为文本分类、序列标记和序列到序列任务提供注释功能。你可以为情绪分析、命名实体识别、文本摘要等创建标记数据。创建项目后,上传数据并开始注释,就能够在数小时内构建一个数据库。

03

pdf2docx

一款开源的PDF转Word转换服务,一个可以将PDF转换成docx文件的Python库

该项目通过PyMuPDF库提取PDF文件中的数据,例如文本,图像和图纸等,然后采用python-docx库解析内容的布局、段落、图片、表格等,最后自动生成docx文件。

04

OCRmyPDF

一个可以把PDF文件变成可搜索文件的工具。它使用Tesseract OCR引擎,将PDF的内容识别成文本,然后给PDF文件增加OCR文本层。用以实现可搜索和复制PDF的内容,当前支持100多种语言。

支持从常规PDF生成可搜索的PDF/A文件;将OCR文本准确地放置在图像下方,以方便复制/粘贴;支持保持原始嵌入图像的精确分辨率等多种功能。

05

Pycorrector

不要认为自己的母语是中文,就不需要学习了,我们也可能会在中文上“犯错误”。

这是一个中文文本纠错工具,支持中文音似、形似(或变体字)、语法错误纠正等,python3开发。可用于中文拼音、笔画输入法的错误纠正。

依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。帮助解决在文本识别模型处理后,对识别结果中个别词汇错误进行纠错。

今天的文本文档处理工具就给大家分享到这里,希望在工作上帮助到你!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230612A08GCA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券