前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI 收购 Rockset:大模型如何使用 OLAP 赋能实时洞察业务场景

OpenAI 收购 Rockset:大模型如何使用 OLAP 赋能实时洞察业务场景

作者头像
腾讯QQ大数据
发布2024-07-22 17:30:55
1170
发布2024-07-22 17:30:55
举报
文章被收录于专栏:QQ大数据团队的专栏

6 月 21 日,OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,表示将整合 Rockset 产品至 OpenAI 所有产品线。

据悉,Rockset 是以数据索引及查询功能而闻名,由前 Facebook 工程师 Venkat Venkataramani、 Tudor Bosman 和 Dhruba Borthakur 于 2016 年共同创立,提供基于云的实时分析数据库 RocksDB,允许开发人员构建数据密集型应用程序。

「这次收购传递了一个明确的信号——市场对实时数据分析的高度重视。通过收购 Rockset,OpenAI 吸纳了一个擅长实时分析和 RAG 的专家团队进行人才整合。

更重要的是,可以看出当前 AI 领域,对实时数据的访问和处理是非常重要的一环。数据是 AI 发展的核心驱动力,而成熟的 OLAP 产品能够将数据与 AI 进行深度融合。」

腾讯云副总裁黄世飞谈到,“腾讯云大数据也在践行 AI+BigData 深度融合,进一步赋能客户充分释放数据价值。”

作为一款国外早期的实时数据仓库厂商,Rockset 的特点是能够提供实时数据索引和查询的能力,FaceBook 的母公司 Meta 也是其重要客户。

我们来看看 Rockset 有什么样的特点。

● 实时数据分析:Rockset 允许用户对大量新传入的数据持续运行 SQL 查询,实现实时数据的即时分析。

● 全索引能力:Rockset 可以自动在任何数据上构建 Converged Index,支持大规模的高性能搜索和分析,以及任意维度组合的检索、校验和计算。

● 多维索引:Rockset 采用多维索引策略,即对数据库中每个不同的列都建立索引,从而提高查询效率,比传统数据库快 5 到 10 倍。

● 云原生架构:Rockset 作为基于云原生架构的实时分析引擎,提供了低成本和按需付费的优势,有助于降低大模型数据分析的消费成本。云原生架构允许利用存储空间换取处理时间,适应了当前存储成本相对较低的现状。

● 无需预定义架构的实时查询:Rockset 能够从 Kafka、MongoDB、DynamoDB 和 S3 等产品中提取和索引数据,实现无需预定义架构的实时查询。

● 支持多种数据源:Rockset 支持从多种数据源导入数据,包括结构化、半结构化、地理和时间序列数据。

● 向量数据类型和搜索功能:Rockset 增加了向量数据类型和向量搜索功能,这使得它能够为大型语言模型如 ChatGPT 提供数据,解锁实时数据分析用例。

作为一款实时分析的数仓产品,Rockset 刚好有效解决了目前大模型在企业客户中落地的几个痛点。基于大语言模型 LLM 构建的产品已经具有很强的语言能力,但依然有缺陷:

● 训练数据集是静态的-大模型在训练时只能使用当前时间点之前的数据作为数据集,数据的时效性无法保证,也就是说大模型无法感知训练后的更新的数据和信息。

● 缺少特定领域的知识-对大模型进行训练时使用的是互联网上的公域数据,无法对私域数据进行训练,因此大模型的通用性强但针对特定领域的问题缺少专业的回答。

● 缺少长期记忆——大模型仅支持有限的 token 长度,因此虽然具备一定程度的短期记忆,但是由于长期记忆的缺失,我们很难和大模型无法进行多轮对话。

● 成本高昂——不管是训练一个大模型还是进行 Fine- tuning,成本都是很高昂的,如果数据更新的频率较高,经常去更新模型也会带来更多的成本。

因此,Rockset 可以作为大模型的实时外部知识库,给大模型传递时效性更高、信息密度更大的多模态数据,用来管理、存储、查询和搜索结构化及非结构化数据。

相比其他产品,Rockset 倾向于提供超大规模下的实时分析及向量检索能力,「这就解决了当前大模型要在企业中落地时的几大痛点:快速整合不同来源数据、解决大模型实时数据感知问题、提供高效数据处理能力。」

OpenAI 收购 Rockset 的行动彰显了其前瞻性战略布局,此举预示着 OpenAI 在未来提升搜索能力、加速企业级应用的创新与优化的潜力。

「由此看来,RAG 并不意味着传统数据库技术的发展会因此停滞。相反, RAG 技术的发展和传统数据库技术的改进可以并行不悖,共同推动数据分析和信息检索领域向前发展。传统数据库(OLAP 或 OLTP)将在 AI 浪潮中不断发展,成为 AI 时代最重要的组成部分之一。」腾讯云副总裁黄世飞表示。

腾讯云 TChouse-C 实时分析+

向量检索实践

我们很高兴地看到,作为一款实时分析数据仓库产品,腾讯云 TCHouse-C 的实时数据分析、存算分离架构、支持向量检索、数据压缩等功能,完美契合了大模型对 OLAP 的需求。

腾讯云数据仓库 TCHouse-C 基于 ClickHouse 优异的查询性能,查询效率数倍于传统数据仓库。支持基于 SQL 的向量检索,并提供了一系列的功能来帮助用户编写分析查询。其中一些函数和数据结构执行向量之间的距离操作,使 ClickHouse 可以被用于向量检索。

使用 TCHouse-C 有什么优势呢?事实上,在向量检索实践中如果仅仅靠嵌入搜索的话效率是很低的,结合元数据进行过滤、聚合将会有更好的效果。

由于完全并行化的查询管道,TCHouse-C 可以非常快速地处理向量搜索操作,支持高压缩级别,通过自定义压缩编解码器进行调整,使得可以存储和查询非常大的数据集。

TCHouse-C 不受内存限制,允许查询多 TB 的包含嵌入的数据集。计算两个向量之间的距离的能力只是另一个 SQL 函数,并且可以有效地与更传统的 SQL 过滤和聚合能力结合起来。这允许向量与元数据一起存储和查询,甚至与丰富的文本一起,从而支持各种各样的用例和应用。

最后,TCHouse-C 索引优化,如近似最近邻(ANN)索引,支持更快的近似向量匹配,并提供了一个有望进一步增强 TCHouse-C 的向量匹配能力的有前景的发展。

我们来看看应该如何通过使用腾讯云 TCHouse-C 结合 LLM 模型来实现向量检索增强,接下来演示如何基于 LangChain 实现 AI 问答,提供结构化和非结构化数据统一管理分析的方案。

代码语言:javascript
复制
import osfrom langchain.embeddings.openai import OpenAIEmbeddingsfrom langchain.text_splitter import CharacterTextSplitterfrom langchain.vectorstores import Clickhouse, ClickhouseSettingsfrom langchain.document_loaders import TextLoaderos.environ['OPENAI_API_KEY'] = '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'loader = TextLoader('./data.txt')documents = loader.load()text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)docs = text_splitter.split_documents(documents)embeddings = OpenAIEmbeddings()for d in docs:    d.metadata = {'some': 'metadata'}settings = ClickhouseSettings(host='127.0.0.1', port=8123, table="vector_search_table")docsearch = Clickhouse.from_documents(docs, embeddings, config=settings)query = "What did the president say about Ketanji Brown Jackson"docs = docsearch.similarity_search(query)print('---------------------')print(docs[0].page_content)

●导入数据

●向文档提问,快速返回检索结果,轻量敏捷实现向量检索:

如果你也在寻找一款高性价比的 OLAP 产品,欢迎来体验、试用腾讯云 TCHouse-C,点击文末「阅读原文」,立即试用!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档