随着人工智能(AI)大模型火爆全网,内容生成形态已然发生了颠覆性的变革,一些挑战与风险也随之而来。近日一份网络微报告称,“AI技术进步在提升生产效率的同时,也带来了信息过载严重、模型偏见加剧、逻辑自证陷阱等风险”。
大模型的幻觉简而言之,就是有可能“胡说八道”。 而面对AI幻觉,训练数据是影响大模型“认知能力”的关键要素,如何避免AI大模型产生“幻觉”,业内有最优解吗?不少科技行业、企业和专家也在频频出招应对,比如近日上线的“大模型加速器 2.0”就恶意从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。而合合信息携手赛尔教育,将文档单页处理耗时降低了超30%,等等。
上海一位人工智能算法专家告诉记者,要减少大模型“幻觉”,训练数据的广度、深度和质量都至关重要。为了能有效避免AI大模型生成错误结果、产生“幻觉”,从技术实现角度首先需要大力避免偏见和错误信息的引入,甚至建立行业共享的“幻觉”黑名单库。同时要持续改进模型结构、监控和更新模型,甚至可以进行AI对抗检测,训练专门的模型来检测大模型生成的虚假内容利用AI技术识别AI生成的文本、图像等等。
大模型需要不断“吸收”正确的专业知识,才能应对实际应用问题。相关技术人员告诉记者,在处理年报、论文、实验室报告等专业文档的过程中,一个符号的解析失误,便可能“误导”大模型,得出与事实相悖的结论。可信性的缺失,也制约了大模型在实际应用场景中的纵深拓展。而经过技术人员的开发应对,现在经过技术升级,大模型可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较行业可比产品降低超30%;还能“逆还原”十余种专业图表数据,并将其转化为大模型可理解的结构化数据。
赛尔教育CTO杨林介绍说,教育行业中所涉及的文档格式多样,在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息,并非易事。“教育行业的大模型建设工作中,数据的数量和质量起着决定性作用。我们做了很多尝试,模型的速度和准确性都达不到要求,严重影响科研工作的进展。”杨林表示,行业知识库的构建基于大量文档的文本信息提取,需要更加高效率、高准确率的工具。而“大模型加速器”提升了对复杂版面、元素的“理解力”,使其按照人类正常的阅读顺序识别文档结构,智能划分标题、段落、表格和图表等内容块,帮助大模型理解版面、内容间的对应关系,减少AI“幻觉”。
近期,多家券商机构也纷纷宣布接入大模型,帮助分析师、行业研究员等专业人士提高工作效率。技术人员介绍说,知识库可以通过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间位置信息,实现对句子、段落的精确溯源,为使用者快速检验。比如大模型在多份高达上千页的财报文件中找到收入、利润等关键数据后,券商分析师可利用溯源功能定位原表格,对信息进行复核,防止错误、遗漏。
最后技术专家也建议,防止大模型出现幻觉,除了需要采取各种技术手段和AI监控,还需要相应的制度协同,比如创建白名单知识库等等。
扬子晚报/紫牛新闻记者 徐晓风
校对 郭凤
领取专属 10元无门槛券
私享最新 技术干货