典型案例:Oracle数据库中超700TB的LOB存储

Oracle是否适合存储大量的非结构化数据?典型的成功案例是怎样的?

前一段就有朋友向我咨询这样的问题,就 Oracle存储大对象(LOB)的能力、性能和成功案例,我咨询了 Oracle ,提供了一个成功案例在此分享给大家。

英国桑格研究院(Wellcome Trust Sanger Institute)是世界上最重要的生物技术研发中心之一,同时也是将基因研究转化为商业用途的重要基地,目前人类基因研究项目正在该研究院进行。

桑格研究院使用 Oracle 数据库 LOB 形式存储生物基因信息,最新数据是存储容量超过了 700 TB。MPSA是桑格研究院其中的一个系统,数据库使用的是Oracle 11g,采用的SecureFiles存储方式,以下是几年前的公开数据说明,当时的数据容量是 512TB,每周增长4~5TB。

桑格研究院的数据库系统系统架构,采用的是Oracle标准的体系,RAC集群,ASM存储,生产中心是2套4节点的RAC集群,灾备中心是一套4节点RAC集群。

灾备和读写分离架构通过DataGuard实现,参考下图的体系,本地站点和灾备站点各部署了一套物理备库,目前的一个核心项目是:癌症基因组计划。

SecureFiles 是 Oracle Database 11g 的一个新特性,旨在为文件或非结构化数据提供与文件系统媲美的高性能,同时保留 Oracle 数据库 的优势。

可以说SecureFiles 集外部文件与数据库 LOB 方法的优点于一身,可以存储非结构化数据,允许加密、压缩、重复消除等。

下图是Oracle官方文档上给出的性能对比数据:

而且,在12c版本中,SecureFiles的压缩等功能获得大幅度的增强,大对象的存储,去重、压缩将更加节省用户的存储资源。

最后一点是科普,关于 Sanger ,值得我们所有人尊敬的科学家,我摘录了大段来自维基百科的文字,不节略。

弗雷德里克·桑格

弗雷德里克·桑格(Frederick Sanger,1918年8月13日-2013年11月19日),是一位英国生物化学家,曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。

早年

桑格于1918年8月13日出生于英国格洛斯特郡,父亲是一位医生。从布莱恩斯滕高中(Bryanston School)毕业后,桑格进入了剑桥大学圣约翰学院,并于1939年完成自然科学文学士学位。他原本打算研究医学,但后来转而对生物化学感兴趣,而剑桥在当时也正好有许多早期的生物化学先驱。桑格在1943年获得哲学博士学位。他在1940年时与玛格丽特·琼·豪(Margaret Joan Howe)结婚,他们育有两个儿子和一个女儿。

蛋白质与DNA序列研究

桑格在1955年将胰岛素的胺基酸序列完整地定序出来,同时证明蛋白质具有明确构造。他利用自己新发现的桑格试剂,也就是2,4-二硝基氟苯(2,4-dinitrofluorobenzene)将胰岛素降解成小片段,并与专门水解蛋白质的胰蛋白酶混合在一起。再将一部分混合物的样本置放于滤纸的一面,并利用一种色层分析方法来做进一步的实验,首先他将一种溶剂从单一方向通过滤纸,同时又让电流以相反向通过。

由于不同的蛋白质片段有不同的溶解度与电荷,因此在电泳后,这些片段最后会各自停留在不同的位置,产生特定的图案。桑格将此图案称为「指纹」;不同的蛋白质拥有不同的图案,成为可供辨识且可重现的特征。之后桑格又将小片段从新组合成胺基酸长链,进而推导出完整的胰岛素结构。因此得出结论,认为胰岛素具有特定的胺基酸序列。这项研究使他单独获得了1958年的诺贝尔化学奖。

1975年时,桑格发展出一种称为链终止法(chain termination method)的技术来测定DNA序列,这种方法也称做「双去氧终止法」(Dideoxy termination method)或是「桑格法」。两年之后,他利用此技术成功定序出Φ-X174噬菌体(Phage Φ-X174)的基因组序列。这也是首次完整的基因组定序工作。他所发明的技术比起当时其他方法使用了较不具毒性的材料。主要是先进行PCR,利用DNA引子和DNA聚合酶使DNA链得以展开复制,再利用双去氧核苷酸(dideoxynucleotides)来终止DNA链的合成。实验会使不同序列的DNA带有不同长度,使其得以经由电泳来做分析。

这项研究后来成为人类基因组计画等研究得以展开的关键之一,并使桑格于1980年再度获得诺贝尔化学奖,与桑格合作研究的沃特·吉尔伯特,以及另一团队的保罗·伯格(Paul Berg)也一同获奖。第二座诺贝尔奖使他成为继玛莉·居礼、莱纳斯·鲍林,以及约翰·巴丁之后的第四位两度获奖者。到了1979年,桑格又与吉尔伯特和伯格一同获得哥伦比亚大学的路易莎·格罗斯·霍维茨奖(Louisa Gross Horwitz Prize)。

近年影响

桑格于1982年退休,英国的维康信托基金会(Wellcome Trust)和医学研究理事会(Medical Research Council),于1993年成立了桑格中心(Sanger Centre),这座研究机构现在称为桑格研究院(Sanger Institute),地点位于英国剑桥,是世界上进行基因组研究的主要机构之一。 2007年,维康信托提供英国生物化学学会(British Biochemical Society)一项补助,使其为桑格从1989年以后的实验研究纪录进行建档及保存。

根据英国医学研究理事会2013年11月20日证实的消息,桑格于19日在剑桥一家医院熟睡中去世。

其他名誉及头衔

1954年成为皇家学会会员(FRS)。

1963年获得英帝国司令勋章(CBE)。

1981年获得名誉勋位(CH)。

1986年获得功绩勋章(OM)。

近期文章

新年贺礼:云和恩墨大讲堂期刊发行

2015 Oracle 十大热门文章精选

Oracle 12c ASM 防火防盗新特性揭秘

DBA入门之路:学习与进阶之经验谈

DBA入门之路:关于日常工作的建议

三十八载,Oracle伴我同行—记我的成长之路

从Approx_Count_Distinct到M7的CPU集成

诊断工具与方法:从OS到数据库

Cloud时代DBA的DevOps最佳实践 - SQL 审核

Oracle Database 12.2新特性详解

原文发布于微信公众号 - 数据和云(OraNews)

原文发表时间:2016-01-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人称T客

细数IT巨头们的商标起源 预测他们的未来命运

尽管麦当劳叔叔和美国NBC电视网的孔雀(Peacock)商标或许电视曝光率很高,但今天操作系统的代表符号比它们还酷上许多。光是Google、苹果、微软和Linu...

2887
来自专栏大数据钻研

如何伪装成一个年薪20万以上的码农?

年轻的程序猿朋友们,从东岸、中部、南加……迁徙到硅谷的你,是否希望远处的美女向你投来崇拜的目光? 希望身边的朋友觉得你很酷很牛逼? 今天我们来聊聊如何在硅谷装成...

2639
来自专栏机器学习算法与Python学习

《福布斯》评史上最差5款Android手机,你中了吗?

近日,美国《福布斯》杂志评出了史上最差的五款Android手机,其中不乏“老爷机”,可能还有曾被你视若珍宝的机型呦!(欢迎您参与文末的投票选出你认为最差的手机,...

34311
来自专栏阮一峰的网络日志

每周分享第 2 期

1534
来自专栏灯塔大数据

每周学点大数据 | No.76 众包算法实践——认识 AMT

本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业...

3819
来自专栏VRPinea

VR精品游戏赏析:大朋中欧开发者大赛入围作品(六)

3486
来自专栏腾讯数据中心

数据中心“能源”成本管理五招

要管好数据中心,必然需要理清纷繁复杂的成本问题。在数据中心的总开支中,“能源”(主要指电费、水费和柴油费用)为总支出的“中流砥柱”,其中又以电费为最主要开支。“...

3548
来自专栏域名资讯

单拼域名can.com以高达99.2万元成交!

2018年刚刚开始,海外交易市场域名交易频繁,我们相继报道了JB.com、DXB.com、“加密界”CryptoWorld.com、“超自然”SuperNatu...

1885
来自专栏程序人生

软件随想录

(一) 软件领域有个叫格林斯潘的哥们,估计大家都不怎么熟悉,但下面这句话写过代码可能没几个不知道: Any sufficiently complicated C...

3359
来自专栏PaddlePaddle

AI不思议 | 你的智能音箱找到2.4G wifi了么?

智能音箱陆续已经火了一年多了,这期间:半夜突然笑出声的“亚马逊ECHO”、试图变成扬声电话的“谷歌home”、万变不离购物的“天猫精灵”、它吃火锅你吃火锅底料的...

1033

扫码关注云+社区