前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CreateDatabase API执行流程_milvus源码解析

CreateDatabase API执行流程_milvus源码解析

原创
作者头像
melodyshu
发布2023-11-14 16:17:42
1900
发布2023-11-14 16:17:42
举报
文章被收录于专栏:milvus数据库

CreateDatabase API执行流程源码解析

整体架构:

CreateDatabase 的数据流向:

1.客户端sdk发出CreateDatabase API请求。

代码语言:python
代码运行次数:0
复制
from pymilvus import (
    connections,
    db,
)

_HOST = '192.168.230.71'
_PORT = '19530'

def connect_to_milvus(db_name="default"):
    print("connect to milvus")
    connections.connect(host=_HOST,
                        port=_PORT,
                        db_name=db_name,
                        )


if __name__ == '__main__':
    connect_to_milvus(db_name="default")

    if "db1" not in db.list_database():
        print("create database: db1")
        db.create_database(db_name="db1")

    print("list databases:")
    print(db.list_database())

客户端SDK向proxy发送一个CreateDatabase API请求,创建一个名为db1的数据库。

2.客户端接受API请求,将request封装为createDatabaseTask,并压入ddQueue队列。

代码路径:internal\proxy\impl.go

代码语言:go
复制
func (node *Proxy) CreateDatabase(ctx context.Context, request *milvuspb.CreateDatabaseRequest) (*commonpb.Status, error) {
	......
    // request封装为task
	cct := &createDatabaseTask{
		ctx:                   ctx,
		Condition:             NewTaskCondition(ctx),
		CreateDatabaseRequest: request,
		rootCoord:             node.rootCoord,
		replicateMsgStream:    node.replicateMsgStream,
	}
    ......
    // 将task压入ddQueue队列
	if err := node.sched.ddQueue.Enqueue(cct); err != nil {
		
	}
	......
	// 等待cct执行完
	if err := cct.WaitToFinish(); err != nil {
		
	}
}

3.执行createDatabaseTask的3个方法PreExecute、Execute、PostExecute。

PreExecute()一般为参数校验等工作。

Execute()一般为真正执行逻辑。

代码路径:internal\proxy\task_database.go

代码语言:go
复制
func (cdt *createDatabaseTask) Execute(ctx context.Context) error {
	var err error
	cdt.result, err = cdt.rootCoord.CreateDatabase(ctx, cdt.CreateDatabaseRequest)
	if cdt.result != nil && cdt.result.ErrorCode == commonpb.ErrorCode_Success {
		SendReplicateMessagePack(ctx, cdt.replicateMsgStream, cdt.CreateDatabaseRequest)
	}
	return err
}

从代码可以看出调用了rootCoord的CreateDatabase接口。

4.进入rootCoord的CreateDatabase接口。

代码路径:internal\rootcoord\root_coord.go

继续将请求封装为rootcoord里的createDatabaseTask

代码语言:go
复制
func (c *Core) CreateDatabase(ctx context.Context, in *milvuspb.CreateDatabaseRequest) (*commonpb.Status, error) {
	......
	// 封装为createDatabaseTask
	t := &createDatabaseTask{
		baseTask: newBaseTask(ctx, c),
		Req:      in,
	}
    // 加入调度
	if err := c.scheduler.AddTask(t); err != nil {
		......
	}
    // 等待task完成
	if err := t.WaitToFinish(); err != nil {
		......
	}

	......
}

5.执行createDatabaseTask的Prepare、Execute、NotifyDone方法。

Execute()为核心方法。

代码路径:internal\rootcoord\create_db_task.go

代码语言:go
复制
func (t *createDatabaseTask) Execute(ctx context.Context) error {
	db := model.NewDatabase(t.dbID, t.Req.GetDbName(), etcdpb.DatabaseState_DatabaseCreated)
	return t.core.meta.CreateDatabase(ctx, db, t.GetTs())
}

在这里重点研究t.core.meta.CreateDatabase()这个方法做了什么事情。

调用栈如下:

代码语言:shell
复制
t.core.meta.CreateDatabase()(internal\rootcoord\create_db_task.go)
  |--mt.createDatabasePrivate()(internal\rootcoord\meta_table.go)
    |--mt.catalog.CreateDatabase()(同上)
      |--kc.Snapshot.Save()(internal\metastore\kv\rootcoord\kv_catalog.go)
        |--ss.MetaKv.MultiSave()(internal\metastore\kv\rootcoord\suffix_snapshot.go)
          |--kv.executeTxn()(internal\kv\etcd\etcd_kv.go)
            |--txn.Then(ops...).Commit()(使用clientv3操作etcd)

在etcd会产生2个key。

==by-dev/meta/root-coord/database/db-info/445629732221365773==

==by-dev/meta/snapshots/root-coord/database/db-info/445629732221365773_ts445630347829575684==

value的值的结构为etcdpb.DatabaseInfo,然后进行protobuf序列化后存入etcd。

因此etcd存储的是二进制数据。

代码语言:go
复制
&pb.DatabaseInfo{
	TenantId:    db.TenantID,
	Id:          db.ID,
	Name:        db.Name,
	State:       db.State,
	CreatedTime: db.CreatedTime,
}
代码语言:go
复制
func (kc *Catalog) CreateDatabase(ctx context.Context, db *model.Database, ts typeutil.Timestamp) error {
    // key的规则
	key := BuildDatabaseKey(db.ID)
    // value的值
	dbInfo := model.MarshalDatabaseModel(db)
    // 序列化
	v, err := proto.Marshal(dbInfo)
	if err != nil {
		return err
	}
	return kc.Snapshot.Save(key, string(v), ts)
}

跟踪BuildDatabaseKey()函数,即可以得到key的规则。

这里整理如下:

key规则:

  • 前缀/root-coord/database/db-info/{dbID}
  • 前缀/snapshots/root-coord/database/db-info/{dbID}_ts{时间戳}

默认数据库名为default,dbID为1。

ID和时间戳都是一串数字,由physicalTime+logicalTime组成。

总结:

  • CreateDatabase由proxy传递给协调器rootCoord操作etcd。
  • CreateDatabase最终会在etcd上写入2个key。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • CreateDatabase API执行流程源码解析
相关产品与服务
向量数据库
腾讯云向量数据库(Tencent Cloud VectorDB)是一款全托管的自研企业级分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持千亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、自然语言处理等 AI 领域。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档