本次分享的案例是关于HP FC MSA2000存储瘫痪抢救Oracle数据库的案例,故障存储整个存储空间由8块硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。由于RAID5阵列中出现2块硬盘损坏,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用。 由于存储是因为RAID阵列中某些磁盘掉线,从而导致整个存储不可用。因此接收到磁盘以后先对所有磁盘做物理检测,检测完后发现没有物理故障。排除物理故障后对数据全部备份后在进行进一步的分析。 【故障分析】 1、分析故障原因 由于前两个步骤并没有检测到磁盘有物理故障或者是坏道,由此推断可能是由于某些磁盘读写不稳定导致故障发生。因为HP MSA2000控制器检查磁盘的策略很严格,一旦某些磁盘性能不稳定,HP MSA2000控制器就认为是坏盘,就将认为是坏盘的磁盘踢出RAID组。而一旦RAID组中掉线的盘到达到RAID级别允许掉盘的极限,那么这个RAID组将变的不可用,上层基于RAID组的LUN也将变的不可用。目前初步了解的情况为基于RAID组的LUN有6个,均分配给HP-Unix小机使用,上层做的LVM逻辑卷,重要数据为Oracle数据库及OA服务端。 2、分析RAID组结构 HP MSA2000存储的LUN都是基于RAID组的,因此需要先分析底层RAID组的信息,然后根据分析的信息重构原始的RAID组。分析每一块数据盘,发现4号盘的数据同其它数据盘不太一样,初步认为可能是hot Spare盘。接着分析其他数据盘,分析Oracle数据库页在每个磁盘中分布的情况,并根据数据分布的情况得出RAID组的条带大小,磁盘顺序及数据走向等RAID组的重要信息。 3、分析RAID组掉线盘 根据上述分析的RAID信息,尝试通过北亚RAID虚拟程序将原始的RAID组虚拟出来。但由于整个RAID组中一共掉线两块盘,因此需要分析这两块硬盘掉线的顺序。仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其他硬盘明显不一样,因此初步判断此硬盘可能是最先掉线的,通过北亚RAID校验程序对这个条带做校验,发现除掉刚才分析的那块硬盘得出的数据是最好的,因此可以明确最先掉线的硬盘了。 4、分析RAID组中的LUN信息 由于LUN是基于RAID组的,因此需要根据上述分析的信息将RAID组最新的状态虚拟出来。然后分析LUN在RAID组中的分配情况,以及LUN分配的数据块MAP。由于底层有6个LUN,因此只需要将每一个LUN的数据块分布MAP提取出来。然后针对这些信息编写相应的程序,对所有LUN的数据MAP做解析,然后根据数据MAP并导出所有LUN的数据。 【数据恢复过程】 1、解析修复LVM逻辑卷 分析生成出来的所有LUN,发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息,发现其中一共有三套LVM,其中45G的LVM中划分了一个LV,里面存放OA服务器端的数据,190G的LVM中划分了一个LV,里面存放临时备份数据。剩余4个LUN组成一个2.1T左右的LVM,也只划分了一个LV,里面存放Oracle数据库文件。编写解释LVM的程序,尝试将每套LVM中的LV卷都解释出来,但发现解释程序出错。 仔细分析程序报错的原因,安排开发工程师debug程序出错的位置,并同时安排高级文件系统工程师对恢复的LUN做检测,检测LVM信息是否会因存储瘫痪导致LMV逻辑卷的信息损坏。经过仔细检测,发现确实因为存储瘫痪导致LVM信息损坏。尝试人工对损坏的区域进行修复,并同步修改程序,重新解析LVM逻辑卷。 2、解析VXFS文件系统 搭建环境,将解释出来的LV卷映射到搭建好的环境中,并尝试Mount文件系统。结果Mount文件系统出错,尝试使用“fsck –F vxfs” 命令修复vxfs文件系统,但修复结果还是不能挂载,怀疑底层vxfs文件系统的部分元数据可能破坏,需要进行手工修复。 3、修复VXFS文件系统 仔细分析解析出来的LV,并根据VXFS文件系统的底层结构校验此文件系统是否完整。分析发现底层VXFS文件系统果然有问题,原来当时存储瘫痪的同时此文件在系统正在执行IO操作,因此导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证VXFS文件系统能够正常解析。再次将修复好的LV卷挂载到HP-Unix小机上,尝试Mount文件系统,文件系统没有报错,成功挂载。 4、检测Oracle数据库文件并启动数据库 在HP-Unix机器上mount文件系统后,将所有用户数据均备份至指定磁盘空间。所有用户数据大小在1TB左右。 使用Oracle数据库文件检测工具“dbv”检测每个数据库文件是否完整,发现并没有错误。再使用北亚Oracle数据库检测工具,发现有部分数据库文件和日志文件校验不一致,安排北亚工程师对此类文件进行修复
在HP存储RAID5硬盘离线LVM下VXFS文件系统是如何进行恢复的呢?HP存储也是在企业中常用的存储设备了,本次分享的故障设备为:HP FC MSA2000存储,由于RAID5阵列中出现2块硬盘损坏并离线,而此时只有一块热备盘成功激活,因此导致RAID5阵列瘫痪,上层LUN无法正常使用,整个存储空间由8块450GB SAS的硬盘组成,其中7块硬盘组成一个RAID5的阵列,剩余1块做成热备盘使用。
1、Linux SSH 安全策略一:关闭无关端口 网络上被攻陷的大多数主机,是黑客用扫描工具大范围进行扫描而被瞄准上的。所以,为了避免被扫描到,除了必要的端口,例如 Web、 FTP、SSH 等,其他的都应关闭。值得一提的是,我强烈建议关闭 icmp 端口,并设置规则,丢弃 icmp 包。这样别人 Ping 不到你的服务 器,威胁就自然减小大半了。丢弃 icmp 包可在 iptables 中, 加入下面这样一条: -A INPUT -p icmp -j DROP 2、Linux SSH 安全策略二:更改 S
不同的比对软件会输出不一样的比对格式;比对后分析用到的软件对输入格式的要求也不一样。比如序列比对我习惯使用MAFFT。MAFFT输出结果默认为fasta格式,clustal可选;如果后续需要使用MrBayes构建贝叶斯树,需要将其转化为NEXUS格式。这里推荐 ALTER http://www.sing-group.org/ALTER/ 来完成比对格式转化的任务。如果分析的序列不是很多,可以选择网页版;如果序列条数比较多可以选择安装本地版 https://github.com/sing-group/ALTER;按照安装步骤执行即可,自己的安装过程没有遇到报错;
熟悉光模块的人都知道,光模块的尺寸由封装形式(Form factor)所决定的,常见SFP、SFP+、XFP、QSFP+、QSFP28等都是由各种多源协议(MSA)组织规定的。下面我们来谈谈光模块MSA多源协议。
电子邮件系统的组成: 1)邮件用户代理(Mail User Agent , MUA),MUA是一个邮件系统的客户端程序,它提供了阅读,发送和接受电子邮件的用户接口。 最常用的 MUA 有: linux 中的 mail , elm , pine 等。 Windows 的 outlook , foxmail 等 2)邮件代理器( Mail Transfer Agent , MTA ) MTA 负责邮件的存储和转发( store and forward )。 MTA 监视用户代理的请求,根据电子邮件的目标地址找
在过去的十年中,宏基因组测序技术以惊人的速度提供了越来越多的蛋白序列数据,这些数据已被用于各研究领域,如研究肠道微生物群在人类疾病和衰老中的作用。然而,在收集的所有宏基因组序列中,只有一小部分在功能或结构上进行了表征,其中大部分尚未被探索。近日《Computational and Structural Biotechnology Journal》发表了一篇Mini review,回顾了宏基因组数据如何被用于蛋白质结构预测和蛋白质发现。
在前面分别用Eureka Server和Eureka Client来搭建了一台注册服务器,以及多个Eureka Client客户端。Eureka Client在启动后,就会将自己注册到EurekaServer中,这样,Eureka Server就能及时感知到注册上来的Eureka Client,以便其他服务通过应用的名称来调用这些服务。
Vision Transformers吸引了大量的研究,并成为各种图像识别任务的Backbone之一,如分类、分割和检测。
机器之心专栏 机器之心编辑部 无需训练的 ViT 结构搜索算法是怎么样的?性能又如何呢?腾讯优图实验室、厦门大学等机构对此进行了深入的探讨与研究。论文被选中为 CVPR 2022 Oral。 近期,ViT 在计算机视觉领域展现了出强大的竞争力、在多个任务里取得了惊人的进展。随着许多人工设计的 ViT 结构(如Swin-Transformer、PVT、XCiT 等)的出现,面向 ViT 的结构搜索(TAS) 开始受到越来越多的关注。TAS 旨在以自动化的方式在 ViT 搜索空间(如MSA 的 head 数量、
今天要为大家介绍的是清华大学唐杰教授课题组发表在 bioRxiv 上的文章 Improve the Protein Complex Prediction with Protein Language Models。本文提出了 ColAttn 方法,该方法利用蛋白质语言模型识别复合物的间相互作用,并进一步结合多序列比对方法来提升结构预测准确性。
文章链接: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8371605/
Swin Transformer(Liu et al。,2021)是一个基于Transformer的深度学习模型,在视觉任务中取得了最先进的性能。与VIT不同Swin Transformer更加高效并且有更高的精度。由于Swin Transformer的一些特性,现在许多视觉的模型体系结构中,Swin Transformers还是被用作模型的骨干。本文旨在使用插图和动画为Swin Transformers提供全面的指南,以帮助您更好地理解这些概念。
在前面我们重新实现了微服务,其中天气数据采集微服务、天气预报微服务都重新采用了Feign技术,以便通过应用的名称来访问外部RESTful服务。结合Eureka部署实例,就能实现微服务的负载均衡及高可用。
a. 对已有的量具而言,根据实际使用工程安排日程、选择做典型的分析。稳定性分析的必要性取决于你对测量系统的信任程度。
Protein language models trained on multiple sequence alignments learn phylogenetic relationships
随着深度学习领域的发展,大规模蛋白质语言模型(PLM)在蛋白质预测任务中的取得了很大的成绩,比如蛋白质3D结构预测和各种功能预测。
基因是构造生命的基本蓝图,而蛋白质则是生命功能的执行者和生命现象的体现者。细胞中的蛋白质主要是通过与细胞内其它蛋白质的相互作用来实现其绝大部分生物学功能。因此,蛋白质-蛋白质相互作用(简称“蛋白质互作”)在生命功能的实现以及生物的进化过程中都扮演极其重要的角色。例如,抗体和抗原蛋白相互作用可以帮助生命个体识别和抵御外界病原体的入侵;受体和配体蛋白相互作用可以触发细胞信号传导通路;酶蛋白和底物相互作用可以催化新陈代谢的进程等等。它们在生物功能上的这种特殊的重要性,也使得蛋白质互作成为许多现代药物设计的关键靶点。
MSA(测量系统分析)作为一种用于测量和控制质量的统计方法被大家所熟知。那么,如何运用MSA帮助企业改善品质?使用MSA分析的前提是什么?哪些情况下需做MSA分析?本文,为你一一揭秘:
原文地址:https://arxiv.org/abs/2103.14030 官网地址:https://github.com/microsoft/Swin-Transformer
本节将基于Zuul来实现API网关。作为Spring Cloud 的一部分,集成Zuul会变得非常简单。
蛋白质是生命的主力军,了解它们的序列和结构,是设计新酶、开发救命药物等生物学和医学挑战的关键。
机器之心报道 作者:机器之心编辑部 华为推出全流程蛋白质结构预测工具 MEGA-Protein(MindSpore for Evolutionary Generation & Assessment Protein),其中业界首创 AI MSA 引擎使得蛋白质结构预测突破「孤儿序列」等高精预测限制 日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在中国算力网智算网络关键节点——西安未来人工智能计算中心的昇腾 AI 强大算力支持下,
本文通过利用Docker容器化封装的能力,将含有mysql的镜像直接从仓库拉取下来后,通过命令行运行,并将指定端口映射到本地。然后本地开发的时候,并不需要去关注mysql的配置和安装了,简单来说,就是查询镜像、拉取镜像、运行镜像。简单的三部操作就可以拥有一个配置好的mysql环境了。
今天易天光通信(ETU-LINK)跟大家谈谈数据中心100G光模块主流标准,传统数据中心主要基于10G网络架构,为了适应AI、深度学习、大数据计算等业务的规模部署,下一代数据中心架构正在向25G/100G网络架构演进,在国内已经看到BAT等互联网巨头都实现了规模部署。
蛋白质结构预测是生物化学中最重要的挑战之一。高精度的蛋白质结构对于药物发现至关重要。蛋白质结构预测始于20世纪50年代,随着计算方法和对蛋白质结构的认识不断增长。最初主要采用基于物理的方法和理论模型。当时的计算能力有限,这些模型往往难以成功地预测大多数蛋白质的结构。蛋白质结构模型的下一个发展阶段是同源建模,出现在20世纪70年代。这些模型依赖于同源序列具有相似结构的原理。通过将目标序列与已知结构的模板序列进行多序列比对,首次成功地确定了以前未解决的序列的结构。然而,这些模型的分辨率仍然有限。20世纪80年代出现了从头开始的方法,带来了下一个分辨率提升。这些方法应用了基于物理的技术和优化算法。结合计算技术的进步,这导致了蛋白质结构预测的显著改进。为了对所有这些新方法进行基准测试,从90年代初开始了蛋白质结构预测技术评估的关键阶段(CASP)系列活动。近年来,机器学习和深度学习技术已经越来越多地集成到蛋白质结构预测方法中,尤其是自2007年以来使用长短期记忆(LSTM)以来。
2022年3月10日,斯德哥尔摩大学生物化学和生物物理系的Arne Elofsson和Patrick Bryant在Nat Commun杂志发表文章,介绍了AlphaFold2如何预测多种异质蛋白复合物的结构,尽管它被训练为预测单个蛋白链的结构。使用优化的MSA与AlphaFold2可以准确地预测异源二聚体复合物的结构。
Transformers在自然语言处理(NLP)和最近在计算机视觉(CV)领域取得了长足的进步。受CNN中金字塔设计的启发,最近的分层视觉转换器(HVT)将Transformer Block划分为多个阶段,并随着网络的深入逐渐缩小特征图。然而,早期的高分辨率特征图导致了很长的token序列,由于Self-Attention的二次复杂度,带来了巨大的计算成本和内存消耗。例如,大小为56×56×96 的特征图在一个Multi-Head Self-Attention(MSA)中需要2.0G FLOPs,而ResNet-18的整个模型只需要1.8G FLOPs。如此巨大的计算成本使得将Transformer应用到广泛的计算机视觉任务中变得非常困难。
Swin Transformer是2021年微软研究院发表在ICCV上的一篇文章,问世时在图像分类、目标检测、语义分割多个领域都屠榜。
上一篇文章谈了一下MSA和pair representation特征的构建,现在我们来看模型结构了。
以前在Html利用js控制SVG或canvas进行运动模拟。浏览器自带window.requestAnimationFrame能不断执行渲染 在这使用我的LogicCanvas中的NumGo进行不断渲染工作,用法详见: 绘图部分基于我的LogicCanvas绘图库:基础使用在此, 喜欢的话可以到项目的github上看看,顺便给个star 如果此篇看起来有些困难,可以先看一下其他D系列文章,尤其是:D4-Android绘图之和我一起画箭头 本篇将介绍:反弹、自由落体、平抛、斜抛的物理场景模拟
前不久,Meta最近的新角ESMfold以超AlphaFold2一个数量级的速度刷爆AI界,拥有150亿参数规模的超大蛋白质语言模型,不依赖MSA信息,能够直接对单一蛋白质进行原子精度级别的预测,被AI界的重量级人物图灵奖得主Yann LeCun称赞为Meta-FAIR蛋白质团队的伟大新成果。
文章提出了一种用于体积分割的Transformer架构,这是一项具有挑战性的任务,需要在局部和全局空间编码上保持复杂平衡,以及沿体积的所有轴保留信息。所提出设计的编码器受益于自我注意机制以同时编码局部和全局特征,而解码器采用并行自我和交叉注意公式来捕获精细细节以进行边界细化。提出的设计是一个计算效率高的模型,在医学分割十项全能 (MSD) 脑肿瘤分割 (BraTS) 任务上具有竞争力和有希望的结果。进一步表明,对数据损坏的情况我们的模型学习到的表示是具有鲁棒性的。
一、从服务拆分粒度考虑,微服务体系中的微服务是单一用途的(做一件事,做好它),而在SOA架构中,服务组件大小可以是小型应用程序服务,也可以是大型的企业应用服务。在很多使用SOA架构的系统中,粒度很大,单个服务经常就是某个大型的产品,甚至是整个一个子系统。 二、组件共享:组件共享是SOA的核心原则之一。事实上,组件共享是企业服务的全部内容。SOA架构增强了组件共享,而微服务架构MSA则试图通过“有界的上下文”来进行最小化共享。“有界上下文”指的是一个组件和它的数据之间的组合,它们属于一个具有最小依赖关系的单
本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型(GPSM)的准确性和生成能力,并使用该标准比较了不同GPSM的生成能力。与之前的度量标准相比,能够直接测量高阶边缘值,衡量GPSM捕获高阶协变的能力,对GPSM的准确性和生成能力有更加直接和科学的度量。
Compositional Attention: Disentangling Search and Retrieval 论文摘要:
随着自主信息技术创新应用的持续推进,国产PC、国产OS和软硬件设备日趋成熟。为了更好的助力国产CPU在AI软件生态从“可用”到“好用”, 作为腾讯优图实验室推出的首个高性能神经网络前向计算开源框架,ncnn近期在国产CPU龙芯和D1上进行了较为全面的适配和性能优化,ncnn携手龙芯和全志科技,共同打通了AI应用和国产CPU硬件间的壁垒。
OpenROADM MSA定义的互连规范包括光传输接口(物理层)和控制器的应用程序编程接口(API)的规范。控制器 API 使用下一代YANG模型的驱动方式来指定。
【导读】装载新MSA引擎的fastAF2来了,效率加速近百倍!助力蛋白质3D结构生成,催化生物AI计算全生态。
里面一小部分内容是关于进化树的可视化展示并且关联多序列比对的结果的。记录下这个代码
我们在上节已经基本了解了如何将Hystrix 集成进应用。我们也通过一个简单的例子,知道了如何通过Hystrix技术实现自己的断路器。总的来说,使用Hystrix是非常简单的。
蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,无法跟上蛋白质序列测定的增长速度。近几年,利用深度学习技术,蛋白质结构预测取得了重大进展,能够得到较为准确的三级结构。今天为大家介绍的这篇文章,是中科院计算所卜东波老师实验室发布的关于蛋白质结构“从头预测”算法的最新研究成果(原文见https://www.nature.com/articles/s41467-021-22869-8)。以CopulaNet为核心,卜东波老师实验室开发了新版的蛋白质结构预测软件ProFOLD,预测软件源代码见http://protein.ict.ac.cn/ProFOLD,预测服务器见http://protein.ict.ac.cn/FALCON2/,欢迎大家使用ProFOLD预测蛋白质结构。
论文:https://arxiv.org/abs/2103.14030 如有侵权请联系博主
前面的笔记介绍过400G BiDi 400G光模块标准新成员——400G BiDi。经过几个月的讨论,其第一版的技术指标已经发布,相关文档可在这一链接中下载, https://www.400gbidi-msa.org/files/400G_BiDi_MSA_Technical_Specification_rev1p0.pdf
质量管理是指在质量方面指挥和控制组织的协调的活动。质量管理,通常包括制定质量方针和质量目标以及质量策划、质量控制、质量保证和质量改进。
本文分享 NeurIPS 2021 论文『Augmented Shortcuts for Vision Transformers』,由北大&华为联合提出用于 Vision Transformer 的Augmented Shortcuts,涨点显著!!!
2022年5月30日,来自韩国首尔国立大学生物科学学院的Martin Steinegger和哈佛大学FAS科学部的Sergey Ovchinnikov等人在Nat Methods杂志发表文章,介绍了一个快速和易于使用的蛋白质结构预测工具ColabFold。
之前提到的clustalo, muscle, mafft 适用于几千到几万条序列的多序列比对,在比较基因组学的分析中,需要对不同基因组的序列进行多序列比对。对于基因组规模的多序列比对而言,之前的工具运行速度上就不够理想了。
今天为大家介绍的是来自Tommi Jaakkola团队的一篇论文。蛋白质的生物学功能通常依赖于动态结构系综。在这项工作中,作者开发了一种基于流的生成模型方法,用于学习和采样蛋白质的构象景观。作者将AlphaFold和ESMFold等高精度的单态预测器重新利用,并在自定义流匹配(Flow Matching)框架下对其进行微调,以获得序列条件的蛋白质结构生成模型,称为AlphaFLOW和ESMFLOW。在PDB上训练和评估时,该方法在精度和多样性上比AlphaFold的MSA子采样方法有显著优势。在对全原子MD的集合进行进一步训练后,该方法能够准确捕捉未见蛋白质的构象灵活性、位置分布和更高阶的系综观测值。此外,该方法可以通过更快的时间收敛于某些平衡特性,将静态PDB结构多样化,展示了其作为昂贵物理模拟代理的潜力。
领取专属 10元无门槛券
手把手带您无忧上云