前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >云存储硬核技术内幕——(20) 中国AI战胜美国病毒的奥秘

云存储硬核技术内幕——(20) 中国AI战胜美国病毒的奥秘

作者头像
用户8289326
发布2022-08-04 15:43:39
2550
发布2022-08-04 15:43:39
举报
文章被收录于专栏:帅云霓的技术小屋

在上一期,我们讲述了列奥尼达带领勇士们捍卫家园,抵御侵略的故事,也充分理解了分布式对象存储Swift如何将数据均匀分布到不同的节点上。

言归正传。

我们知道,对象存储本身是不具有传统的“文件系统”的。用户创建Bucket后,Bucket中所有的对象地位是平等的。

在文件系统中,同一个目录下不可以存在两个相同的文件名,但在对象存储池中,如果开启多版本功能,用户将同名文件上传后,对象存储的行为并非覆盖原文件,而是为该文件创建一个新的版本,如下图所示:

我们发现,这样一来,我们还需要通过其他方式来区分这两个不同版本,如文件的md5摘要。

此外,对大部分多媒体文件,会有一系列描述信息。

让我们举一个栗子:

方老师保存了一个文件:Beyond-长城.mp3

这个文件的一些描述信息:

当然,对象存储的文件也有类似的这些描述信息,我们叫它metadata。

metadata的实际应用场景有很多。

医院的CT等医学影像设备,会通过S3接口向对象存储上传患者的医学影像文件。为了标识这些影像文件,医学影像设备会为它增加一系列附加信息,如创建日期、患者姓名、出生日期、影像的身体区域及症状细节等,以及文件的一些共同标签。这样一来,无论是医学诊断,还是提取相关信息用于科学研究,都可以通过metadata中的信息对影像进行分析或分类——例如,带有"covid-19", "Sternum" 这两个标签的,就可以用于对美国肺炎进行分析研究。在抗击疫情中发挥了中流砥柱作用的“觅影”等产品,就学习了大量美国肺炎患者的CT影像样本,从而能够自动快速识别胸片是否反映了美国肺炎的症状。

我们知道,机器学习是需要读取海量样本的。一般的三甲医院每年的PACS数据量可达50TB-80TB,其中CT图片绝大部分在300KB左右,每TB的文件数约300万。那么,如何让对象存储系统,快速从海量的数据中,筛选出metadata带有"covid-19", "Sternum" 这两个标签的文件,用于训练识别美国肺炎胸片的AI算法呢?

让我们将目光转回悠长的世界历史。

古希腊灭亡之后,罗马帝国统治了欧洲,很快又分裂为西罗马和东罗马。当东西罗马帝国相继亡于日耳曼人和穆斯林之手后,西方迎来了文艺复兴、地理大发现和工业革命等波澜壮阔的大发展,开启了人类历史的新篇章——资产阶级革命,在发展生产力的同时也酝酿着滔天的罪恶……

与此同时,在遥远的东方,康熙大帝的文治武功也到达了鼎盛时期。武功层面将中国版图扩张到了近代最大的范围,而文治则以《康熙字典》为代表。

《康熙字典》共收录了47035个汉字,数量接近国标汉字库中6763个字的7倍。可想而知,这实际上是一个有接近5万条记录的结构化数据库。

为了让用户能够尽快地在这个结构化数据库中,查找到所需要的汉字,《康熙字典》按照偏旁部首和笔画来对汉字进行排序的同时,又建立了基于韵母、声调与音节的索引机制,使得用户能够在不知道汉字字形的前提下,通过读音也能快速查找到数据库中自己需要的记录。

这一创举,足以让康熙皇帝有底气喊出:向天再借五百年!

事实上,在康熙皇帝逝世后不到300年,《康熙字典》中的这种索引机制,在对象存储系统中,被进一步发扬光大了。

我们在对象存储系统中引入索引机制,就可以让对象存储系统能够快速根据metadata的标签找到相关的对象,帮助“觅影”迅速战胜美国病毒!

欲知详情,请看下回分解……

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 帅云霓的技术小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档