先抛出一个问题,AI应用落地最多、使用最广泛的场景是什么?还是聊天机器人Chatbot,也是生成式AI最原始的UI方式。搭建Chatbot并不复杂,扣子、Dify、FastGPT、MaxKB等等都可以轻松上手搭建属于自己的Chatbot Agent。智能客服作为企业使用AI的“入门级”应用形式,看起来既简单又普通,模型+Prompt+文档RAG = 智能客服。
1、Chatbot是AI落地普遍形式
Chatbot在不同场景也有不同的名字,比如智能客服、问答机器人,本质上都是Chatbot,也是当前AI应用落地的普遍形式。
年初的时候还有一个梗,企业老板以为用AI就要买DeepSeek一体机,还要进行模型训练、蒸馏,一体机买了之后却不清楚选哪个场景来试点AI,最后的最后落地了一个对话框(提供问答聊天功能)。这个梗是说智能客服Chatbot是最常见的应用,看起来简单实际搭建起来一点也不容易。
做个Demo,几个小时就够了,但是如何提升准确性?如何对接企业文档提供个性化数据?企业数据可不是几百个文档那么简单,文档种类多、格式复杂多样、数据存在冗余/缺失等状况。数据的收集、清洗、增强等处理是非常关键的一个环节,也是耗时耗力的一件事,并且会很大程度上影响智能客服的准确性。但是数据这个环节经常被忽略,企业经常会误以为所有数据Ready、可随时调取并且非常准确。
2、难的不是AI,是杂乱的数据
2.1 2.1 痛点:文档样式繁多
公司拥有大量原始数据,数据没有汇总、清洗,传统方式难以利用、AI时代也难以让数据发挥价值。企业每天生成很多都是Word、PDF、PPT等格式的数据,大模型和Agent处理起来并不容易。
谁家没有一堆难处理的数据呢,首先数据格式就有非常多种类,比如Word、PDF、Excel、PPT,还有各类线上云文档。我们先来看下丰富多彩的各类文档。
数据中的格式也很凌乱。有客户合同等Word文档,给客户讲解的PPT和PDF方案,产品报价等Excel文件,内部团队协作用到的各类云端知识库和方案资料。说实话,我不能要求客户、同事必须给我Markdown格式的数据吧。他们给什么格式,我说了不算。人工看这些资料没问题。做个智能体Demo解析一份文档也没啥问题,但是如果面向企业级AI应用需要解析一堆资料,问题就多了去了。
2.2 方案:通过TextIn来处理
最近在找一些好用的产品,用了合合信息TextIn模块还是非常好用的,推荐给大家。TextIn是合合信息打造的智能文档处理云平台,为用户提供智能图像处理、文字表格识别、文档内容提取产品,它能够处理我们日常工作中遇到的几乎所有文档格式。
TextIn多格式文档解析能力:
前面也提到了,企业内部数据格式是不规则的,比如下图示例的一份PDF报告,这里的难点在非对称双栏,通过“PDF To Markdown”功能也能够很整齐的提取到对应信息,这背后就是精细化的处理了。
很多论文、报告会出现“非对称双栏”,所以TextIn就针对特定的排版版面分析进行特殊处理。下面图片就是版面分析算法框架和输出示例。首先原生电子档PDF和扫描版本的PDF还是有很多不同的,分别会采用电子档文字提取、通用文字识别来处理,通用的处理模块包括根据物理版面、排版布局、逻辑版面提取信息。再细的处理就是每一个文字检测识别,还有段落、公式、图片、字符、表格、粗体、斜体、下划线、多栏、页眉、页脚、目录、单元格边框等等,细致程度到了每一个字符。
窥一斑而知全豹,我们就知道TextIn对多种类型的文档进行了大量针对性优化提取。
文本段落、表格还原,这些都容易想到的,不过目录层级的确是非常不容易的。
跨页合并,多少数据的痛点,通过TextIn也能够轻松搞定。
3、AI应用中使用数据
企业想把AI引入进来帮我搭建一个Chatbot,搭建一个使用了我自己以及团队内部文档的“更懂我们的”Chatbot。也就是让Chatbot能够加载这些知识库中的资料、能够持续更新、在提问的时候能够优先从知识库中查找资料返回。
AI对这些资料格式并不太熟悉,把图片、PPT直接丢给DeepSeek大模型么?(注意哦,这里是个坑,DeepSeek并不是多模态大模型,也就是只支持文字版本。记住这个词哦,“多模态”。)
那也有办法,我们通过一些工具把这些格式的数据转成AI需要的、AI喜欢的Markdown格式数据。没问题,就这么搞!
具体怎么操作呢,Word、PDF、Excel我还能手动Ctrl+A、Ctrl+C、Ctrl+V来操作,但是发票图片、PPT等数据该如何处理呢?又如何保证准确性呢?
3.2 方案:智能数据处理,让数据产生价值
专业的AI数据处理工具已经能够帮助企业快速、准确地提取各种格式文档中的信息。
整体上从以下4个步骤的工作流来加工处理数据:
📁 数据收集 → 🤖 TextIn智能解析 → 📊 知识入库 → 🎯 模型训练 → 🔄 持续更新
大模型和智能体使用AI做聊天机器人的关键步骤就是知识库检索增强RAG,需要对原始数据进行提取和清洗。
转换得到高质量的数据之后可以丢给向量模型做数据索引、转成向量并存储到向量数据库,最终用户输入一个问题时大模型会根据Prompt指令去向量数据库中检索合适信息返回给用户,其实也就是去企业内部的文档知识库中进行检索了,提供企业个性化的数据。
对架构图进行解析
RAG的效果,跟数据质量有很大关系。
如何让生成的内容更安全可靠呢,生成新的时候能够显示信息来源,方便人工来检查,这时候还是需要高质量的数据。
3.3 从数据处理到知识管理的完整链路
有了TextIn这样的工具,我们的AI Chatbot搭建流程就变得非常清晰:
重新定义企业数据价值,用户无需过多关注如何处理,AI时代只需要充分使用企业内部数据、充分发挥数据价值。这就是AI时代给我们带来的最大改变:我们不再需要成为数据处理专家,不需要掌握复杂的格式转换技术,不需要担心OCR识别的准确性问题。企业用户和开发者只需要专注于:
3.4 方案:使用扣子和工作流来处理数据
很多开发者和企业会使用扣子来搭建聊天机器人,我们同样可以把TextIn的ParseX功能封装为插件来调用。
4、企业级应用:从试点规模化部署
4.1 提供API/SDK方便集成到企业现有业务中
从文档中提取数据、清洗数据并不应该成为孤立的系统功能,而应该集成到企业内部现有业务流中。这时就需要灵活的API和SDK提供集成能力了。
可以在官网中通过API文档、示例代码查看API使用方式,比如“通用文档解析”可以通过下面CURL的方式进行请求/pdf_to_markdown的API进行数据解析,通过--data-binary指定二进制文件、通过--data-raw指定图片等格式文件。
# 示例 1:传输文件
curl --location --request POST 'https://api.textin.com/ai/service/v1/pdf_to_markdown' \
--header 'x-ti-app-id: c81f*************************e9ff' \
--header 'x-ti-secret-code: 550# 示例 2:传输 URL
curl --location --request POST 'https://api.textin.com/ai/service/v1/pdf_to_markdown' \
--header 'x-ti-app-id: c81f*************************e9ff' \
--header 'x-ti-secret-code: 5508***********************1c17' \
--header 'Content-Type: text/plain' \
--data-raw 'https://example.com/example.jpg'
# 示例 2:传输 URL
curl --location --request POST 'https://api.textin.com/ai/service/v1/pdf_to_markdown' \
--header 'x-ti-app-id: c81f*************************e9ff' \
--header 'x-ti-secret-code: 5508***********************1c17' \
--header 'Content-Type: text/plain' \
--data-raw 'https://example.com/example.jpg'
还有“API调试”界面,能够通过界面对API进行调试,HTTP请求的Header部分输入“x-ti-app-id”和“x-ti-secret-code”,相当于输入API请求的公钥和密钥。这里还有一个亮点哦,就是“一键同步URL参数”,我们希望用API调试快速跑通API请求并验证效果,除了必填项其他的一概不想填,那么“一键同步URL参数”功能就很好用,会将工作台前端参数同步过来。
这是一个请求示例,实际上有参考API代码,只需要修改对应的必要参数就可以请求啦。
4.2 准确性保障:可追溯的知识来源
关于准确性问题,TextIn建立了完善的准确性保障体系,当聊天机器人Chatbot回答问题时,它不仅会给出答案,还会通过以下方式保障准确性和严谨性。
4.3 大模型训练微调也需要清洁数据
在AI应用中除了数据检索增强RAG需要用到准确的数据,在大模型训练、微调的时候也需要投喂准确、高质量的数据。大模型训练、微调使用的数据集有特定格式,但是数据源还是企业内部、互联网中清洗过的数据,比如权威报告、国家标准、学术论文、文档公告、使用手册以及其他需要模型具备特定能力和知识的数据。
整体使用流程也很清晰。
5
让企业数据真正"活"起来
企业多年积累的文档资料——合同、方案、报表、发票——这些看似杂乱的数据,实际上是企业最宝贵的知识资产。
合合信息 TextIn的价值在于:
TextIn为企业带来的价值是全方位的。首先是降低技术门槛,企业无需配备专业的数据处理人员,普通员工即可轻松处理复杂的文档资料。其次是提升处理效率,通过批量自动化处理,相比传统方式效率提升10倍以上,大大节省人力成本。第三是保证数据质量,95%以上的识别准确率为后续AI应用奠定了坚实基础。最后是加速AI落地,提供从数据处理到智能应用的全链路解决方案,让企业能够快速实现AI转型。
5.2 行动建议
不要再为这些问题困扰:企业不应该再为数据格式复杂多样而烦恼,不应该再忍受手工处理的低效率,也不应该再因为技术门槛而让AI应用落地困难重重。AI时代的企业,应该专注于:真正的AI时代,企业应该把宝贵的时间和精力投入到更有价值的思考中:如何让AI更好地理解和服务于业务需求,如何让数据真正为企业决策提供支撑,如何让企业的知识和经验得到更好的传承和应用。
5.3 写在最后
在AI的帮助下,每一份文档都可能成为企业智慧的源泉,每一个数据都可能释放出意想不到的价值。
现在就开始行动,AI时代,让你的企业数据真正"活"起来!