随着人工智能(AI)时代的全面到来,大模型的备案工作已成为行业内屡见不鲜却又至关重要的环节。在浏览网络资讯时,我们不难发现众多友商已发布诸多关于大模型备案的攻略文章,然而,这些文章大多侧重于备案的意义阐述、流程简介以及相关法律法规的宏观解读,却鲜有文章能够具体而微地罗列出进行大模型备案时所需满足的详细“条件”以及必须留意的“注意事项”。鉴于此,本文将紧密围绕国家互联网信息办公室(以下简称“网信办”)的备案要求,深入剖析大模型备案的实际情况,以期为业界同仁提供更为专业、实用的参考。
在正式启动大模型备案申请之前,首要任务是全面、准确地梳理并明确模型的基本情况,这包括但不限于模型的主要功能、适用场合以及服务范围等核心要素。
一般而言,大模型的功能多样且复杂,但主要可归纳为以下几类:
在备案过程中,需根据自身模型的实际情况,准确申报其主要功能,可单选亦可多选。
明确模型的适用人群及场合是备案的重要环节。需具体说明模型是否适用于未成年人、学生等特殊群体,并详细列举适用场合,如自动控制、医疗信息服务、心理咨询、关键信息基础设施保护以及其他特定领域。这有助于网信办全面评估模型的社会影响及潜在风险。
服务范围的选择直接关系到模型的监管力度及合规要求。需明确模型是服务于未限定特定领域还是限定于某一或多个特定领域,并具体说明限定的领域范围。这有助于确保模型在合法合规的框架内运行,避免滥用及误用。
对于自研模型,需详细阐述其研发过程、技术架构及创新点;而对于调用第三方已备案模型为基座进行微调的模型,则需详细说明采用的模型情况(如模型名称、版本号等)及采用方式(商业合作还是开源免费模型),以确保模型来源的合法性与合规性。
训练算力资源是模型研发的关键支撑。需说明训练服务器的数量、GPU厂商及型号,以及是否采用第三方云平台或服务器进行训练。这有助于评估模型的研发规模及技术实力,同时确保训练过程的可追溯性与可控性。
训练语料与标注语料的质量直接关系到模型的性能与准确性。需注明文本训练语料的存储数量及语料数量,各类型语料(如新闻、社交媒体、专业文献等)的规模及来源,以及标注人员的数量、类型(如专业标注员、众包标注员等)及培训情况。此外,还需说明标注内容准确性的人工核验比例,以确保标注数据的可靠性与有效性。
推理算力资源是模型实际运行的重要保障。需说明推理服务器的数量、GPU厂商及型号,以确保模型在部署后能够稳定、高效地运行。
开发服务能力反映了模型的实际应用价值。需根据模型的并发处理能力、响应时间等指标,评估其属于十万级、百万级、千万级还是其他级别,以便为用户提供清晰的服务预期。
服务方式的选择直接影响到用户的使用体验。需明确模型是通过APP、网页、API接口还是其他方式提供服务,并详细说明各种服务方式的优缺点及适用场景。
在服务过程中,需重点说明以下信息管理措施:
为确保模型输出的合法性与合规性,需预置关键词拦截功能,并提供拦截关键词列表。这有助于及时发现并阻止非法内容的传播,维护网络空间的清朗环境。
根据TC260(全国信息安全标准化技术委员会)提出的相关标准,需对模型的安全情况进行多方面评估,主要包括以下几个方面:
重点针对涉意识形态、国家主权、个人隐私、个人肖像权和名誉权等方面的语料内容进行评估,确保语料来源的合法性与合规性。评估过程中需附关键词列表,以便对敏感内容进行精准识别与拦截。
对模型生成的文本、图片、视频等内容进行全面评估,确保其不包含违法违规信息。评估过程中需附测试题集,通过模拟真实场景对模型进行压力测试,以验证其生成内容的合法性与合规性。
评估模型在研发、部署及使用过程中是否涉及侵犯知识产权、商业秘密等违法行为,确保模型的合法性与正当性。
评估模型在处理涉及民族、信仰、性别等敏感话题时是否保持中立、客观的态度,避免引发社会争议或歧视现象。
评估模型的透明性、准确性及可靠性等指标,确保用户能够清晰了解模型的工作原理及输出结果的可靠性。
对模型的拒答率进行评估,确保其在面对无法回答或违法违规问题时能够做出正确的拒绝回答决策,避免误导用户或传播非法信息。
进行大模型备案时,需准备以下材料:
不同地区的备案要求可能存在差异。例如,北京地区可能要求额外提交信息采集表;部分地区可能要求增加未成年人保护条款、知识产权策略等材料。因此,在备案前需仔细了解当地网信办的具体要求,确保材料齐全、合规。
大模型备案的整个周期较长,一般需5-8个月,北京地区甚至可能长达8-10个月。鉴于当前“清朗·整治AI技术滥用”专项行动正在严查未备案直接提供服务的企业与AI产品,符合备案条件的企业建议尽早筹备备案工作,以免耽误产品上架时间或被网信办约谈下架产品,造成不必要的损失。
在备案过程中,企业应密切关注网信办的最新政策动态及监管要求,及时调整备案策略及材料准备方向。同时,加强与网信办的沟通联系,积极回应其关切及疑问,确保备案工作的顺利进行。
以上就是本篇文章的全部内容。对于其他备案问题或经验分享,欢迎广大业界同仁在评论区积极交流、共同探讨。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。