前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >其实我们也有自己的"GPTs"

其实我们也有自己的"GPTs"

原创
作者头像
盐咔咔
发布2024-05-31 22:46:48
2151
发布2024-05-31 22:46:48

今天又来讲一讲AI领域的小知识,GPTs的概念相比很多人都已经早有耳闻,早在2023年11月份OpenAI就提出了GPTs这个概念,到了今年,我们国内也有很多大厂对此进行了丰富的实践,比如腾讯基于混元大模型的腾讯元器、字节打造的Coze等等,今天我们就来从GPTs讲起,介绍一个GPTs领域国内的新秀——腾讯元器。

GPTs

GPTs,全称Generative Pre-trained Transformers,是OpenAI在2023年11月发布的一种新型AI技术。目的就是允许用户根据自己的需求构建定制化的ChatGPT,以完成特定的个人和专业任务。它在官网有如下的介绍:

"任何人都可以轻松构建自己的 GPT,无需编码。您可以为自己制作它们,仅供公司内部使用,也可以为所有人制作。创建一个就像开始对话一样简单,给它说明和额外的知识,然后选择它可以做什么,比如搜索网络、制作图像或分析数据。"

GPTs的创建过程简单直观,用户可以通过对话形式为GPT提供指令和额外的知识库,然后选择所需的能力(如联网、绘图、分析数据等)。此外,OpenAI提供了GPTs商店,方便用户分享和使用不同的GPTs。GPTs的出现为个人开发者提供了快速创造多样小型产品的可能性,可以创建用于日常生活、特定任务、工作或家庭中的AI助手,提升效率和便利性。

AI新秀——腾讯元器

而我们今天要分享的腾讯元器,就是GPTs概念的另一种实现。

腾讯元器(https://yuanqi.tencent.com/)是腾讯公司推出的一款基于腾讯混元大模型的AI智能体创作与分发平台,同时也是一种GPTs概念的实现。支持通过下述能力对大模型进行增强:

  • 提示词,包含详细设定(system prompt),开场白,建议引导问题。
  • 插件(外部API),目前支持勾选多个插件。官方插件包含微信搜一搜、PDF摘要&解析、混元图片生成,也支持用户自定义插件。
  • 知识库,当前版本支持doc和txt两种格式。
  • 工作流,一种“流程图”式的低代码编辑工具,可以用来做一个“高级版”插件。在工作流里,可以任意编排插件、知识库、大模型节点的工作顺序和调用传参,从而精确控制智能体中部分任务的运行逻辑。

使用腾讯元器搭建自己的"GPTs"

下面我就通过官网的介绍,搭建了一个自己的AI对话模型:

(1)首先是模型的基本信息,包括名称、简介、头像等,除此之外就是它的详细设定,也就是默认的prompt,可以理解为让它有一定的方向感

(2)下面就是对模型的进一步丰富,包括引导问题、插件、知识库和工作流,其中比较重要的就是插件和知识库。插件就好比我们引用其他模型的部分功能来丰富自己的模型,就类似于写Go语言时导入的三方依赖,然后知识库比较重要,它应该是我们自定义模型的核心要素,下面我们会讲它的原理。

(3)自己的"GPTs"搭建完成

体验地址:https://yuanqi.tencent.com/agent/PdI8gtizeDXt?from=share

为什么要有知识库

大模型的知识库就好比我们应用程序使用的关系型数据库,是整个业务实现的必要组件,主要是基于矢量数据库。

矢量数据库(也称为向量数据库)是一种特殊的数据库系统,其设计和优化主要为了高效地存储、管理和操作矢量数据。以下是关于矢量数据库的详细解释:

  1. 定义与特点
    • 矢量数据库是一种存储和检索多维向量数据的数据库系统。
    • 这些向量通常表示复杂数据(如图像、文本、声音或视频)的嵌入或压缩表示,可以视为多维空间中的点。
    • 矢量数据库允许在这些矢量之间进行快速相似性搜索,从而能够从庞大的数据集中快速检索最相似的项目。
  2. 数据表示
    • 矢量数据库中的“矢量”通常是由机器学习模型从各种数据类型(如图像、视频、文本和音频)中提取的多维特征向量。
    • 这些向量的维数可能从几个到几千个不等,取决于数据的复杂性和细节。
  3. 工作原理:矢量数据库使用特定的相似性度量来查找最接近的匹配,而不是像传统数据库那样仅依赖精确匹配。它通常使用“近似最近邻”(ANN)搜索技术,包括哈希和基于图的搜索等方法,来加速搜索过程。
  4. 应用场景:矢量数据库在人工智能和大数据分析等应用中发挥着关键作用,因为它们能够高效处理和解析非结构化数据的复杂性和细微差异。这对于需要实现高精度和高效内容搜索与推荐的应用程序至关重要,例如图像和视频检索系统、个性化推荐引擎以及在大型数据集中执行的高级搜索功能。
  5. 技术架构:矢量数据库的技术架构专注于高效处理高维数据矢量,这些矢量主要由机器学习模型生成。其核心操作包括为矢量数据量身打造的索引和查询机制,以及机器学习模型在构建这些矢量时发挥的关键作用。
  6. 优势与价值
    • 矢量数据库通过优化复杂数据类型的高效处理、快速搜索和精准管理,显著推动了创新,并增强了数据驱动领域的能力。
    • 它们为人工智能和机器学习模型的快速开发及部署提供了强有力的支持,对于希望借助人工智能技术提升用户体验、增强运营效率以及从复杂数据中挖掘新洞察的企业和开发者来说,具有不可估量的价值。

矢量数据库对于大模型的重要性主要体现在高效的相似度搜索能力、优化的存储和索引结构、私域知识补充、本地存储与隐私保护以及长期记忆存储等方面。这些特点使得矢量数据库成为大模型不可或缺的辅助工具,为大模型的应用提供了强大的支持。

总的来说,矢量数据库是一种高效处理多维向量数据的数据库系统,其独特的设计和优化使其在人工智能和大数据分析等应用中发挥着重要作用。

矢量数据库与传统关系型数据库的差异

矢量数据库和传统数据库在多个方面存在显著的差异,这些差异主要体现在数据表示、查询方式、应用场景以及优化目标等方面。

  1. 数据表示
    • 矢量数据库:主要存储和操作的是高维向量数据,这些向量通常是由机器学习模型从图像、文本、音频等非结构化数据中提取的特征表示。
    • 传统数据库:主要存储和操作的是结构化数据,如关系型数据库中的表格数据,每条记录由多个字段组成,字段之间通过关系连接。
  2. 查询方式
    • 矢量数据库:支持基于相似性的查询,即给定一个查询向量,矢量数据库可以快速地找到与之最相似的数据向量。这种查询方式通常用于推荐系统、图像检索等场景。
    • 传统数据库:支持基于精确匹配的查询,即根据字段的精确值来检索数据。此外,传统数据库还支持复杂的SQL查询,可以对数据进行聚合、排序等操作。
  3. 应用场景
    • 矢量数据库:主要应用于需要处理非结构化数据并进行相似性搜索的场景,如图像识别、自然语言处理、推荐系统等。在这些场景中,矢量数据库可以快速地找到与给定数据最相似的其他数据。
    • 传统数据库:广泛应用于各种需要存储和管理结构化数据的场景,如企业资源规划(ERP)、客户关系管理(CRM)、财务管理等。传统数据库通过关系模型来组织和存储数据,方便进行各种复杂的查询和操作。
  4. 优化目标
    • 矢量数据库:优化目标主要是提高相似性搜索的速度和准确性。由于矢量数据的高维特性,如何高效地存储和检索这些数据是矢量数据库面临的主要挑战。
    • 传统数据库:优化目标主要包括提高数据的查询性能、并发处理能力、数据安全性和可靠性等。传统数据库通过优化索引结构、查询优化器、并发控制机制等技术手段来实现这些目标。
  5. 可扩展性和灵活性
    • 矢量数据库:通常设计为分布式系统,以支持大规模数据的存储和查询。此外,由于矢量数据的多样性,矢量数据库通常需要支持多种数据类型和相似性度量方法。
    • 传统数据库:虽然也可以通过分布式架构来扩展处理能力,但其在数据类型和查询方式上的灵活性相对较低。传统数据库主要关注结构化数据的存储和查询,对于非结构化数据的处理能力有限。

总之,矢量数据库和传统数据库在数据表示、查询方式、应用场景以及优化目标等方面存在显著的差异。这些差异使得它们各自在不同的场景下具有独特的优势和价值。

GPTs的基本原理

GPTs的工作原理主要是基于预训练和微调两个阶段。在预训练阶段,GPTs会使用大规模的无标注文本数据,通过自监督学习的方式学习语言的内在规律和上下文关系。这个过程中,GPTs会读取文本数据,将文本分解为词或子词的序列,并通过多层Transformer结构对序列中的每个词进行编码,生成对应的词向量。接着,GPTs会尝试预测序列中的下一个词,通过这个过程不断优化模型参数,使其能够捕捉到文本中的语言规律和结构信息。

在微调阶段,GPTs会利用预训练阶段学到的知识,针对特定的自然语言处理任务进行有监督学习。这个阶段会使用与任务相关的标注数据进行训练,使GPTs能够适应不同的任务需求。例如,在文本生成任务中,GPTs会根据输入的文本生成符合语境的后续文本;在问答任务中,GPTs会根据问题和背景知识生成相应的答案。

此外,GPTs还可以结合其他技术来提高性能。例如,通过引入知识库和矢量数据库,GPTs可以获取更多的背景知识和相关信息,从而提高生成文本的质量和准确性。同时,GPTs还可以使用索引技术来加速数据检索和查询速度,提高系统的响应速度和用户体验。

综上所述,GPTs的工作原理是通过预训练和微调两个阶段学习语言的内在规律和上下文关系,并结合其他技术来提高性能,最终在各种自然语言处理任务中展现出强大的能力。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • GPTs
  • AI新秀——腾讯元器
    • 使用腾讯元器搭建自己的"GPTs"
    • 为什么要有知识库
      • 矢量数据库与传统关系型数据库的差异
      • GPTs的基本原理
      相关产品与服务
      关系型数据库
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档