RDKit一个用于化学信息学的python库。使用支持向量回归(SVR)来预测logP。 分子的输入结构特征是摩根指纹,输出是logP。
log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一。当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库)。但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。
今天给大家介绍来自美国加州大学团队发表在ICML2022上的文章。该论文提出了一种能够加快分子生成速度的LIMO模型。LIMO采用了变异自动编码器生成分子的的潜在表示,并且通过网络进行分子的属性预测,以实现更快的基于梯度的分子属性反向优化。综合实验表明,LIMO在基准任务上表现出竞争性,在生成具有高结合力的类药化合物的新任务上明显优于当前最先进的技术,并对两个蛋白质目标的结合力达到纳摩尔范围。作者利用更精确的基于分子动力学的绝对结合自由能计算,展示了生成的分子基于对接的结果,并表明模型生成的一个类药物化合物对人类雌激素受体的预测K D值(结合亲和力的度量值)远超过了早期的典型候选药物和大多数FDA批准的药物对其各自目标的亲和力。
在一个包含Actor、Env、Reward Function的强化学习的情景中,Env和Reward Function是你所不能控制的。
开发者写代码,和数学家写公式一样是非常自然的一件事。开发者将完成某个任务的步骤和逻辑,一行行写成代码,并期待达到预定的效果。数学家从某个事实出发,将思考过程一行行写成表达式,并期待找到复杂逻辑背后的简单关系。
所谓计算模型实际上是软件和硬件之间的一种桥梁,使用它能够设计、分析算法,在其上高级语言能被有效的编译且能够用硬件来实现。 串行计算时,典型的,被公认的,通用的计算模型是冯▪诺依曼机。但是并行计算时,没有一个类似冯▪诺依曼机被公认的,通用的计算模型。 现在流行的并行计算模型要么过于简单、抽象(如 PRAM),要么过于专用(如 互联网络模型)。在这里,我们先介绍一些常用的并行计算模型:PRAM模型,异步PRAM模型,BSP模型和LogP模型。
第一种: 把自己的数据整理成easy_input.txt的格式,就可以跳过“输入数据的格式化”,直接进入“开始画图”。第一列是基因名,后面几列依次是各个sample里motif的pvalue,然后是motif的名字,后面是FPKM值。
2022年6月7日,来自多伦多大学计算机科学系的Daniel Flam-Shepherd等人在Nat Commun发表研究工作,研究为分子的深度生成模型引入了三个复杂的建模任务来测试化学语言模型的能力,结果显示语言模型是可以学习任何复杂分子分布的非常强大的生成模型。
今天给大家介绍的是雅盖隆大学数学与计算机科学学院的学生Łukasz Maziarka和Agnieszka Pocha于2020年1月8日发表在Journal of Cheminformatics的一篇论文,他们受现Adobe公司研究学者朱俊彦在2017年提出的无关联图像生成模型CyCleGAN启发,提出了一种新的基于Graph的分子图生成优化模型——Mol-CycleGAN,该模型可生成与原始化合物具有高度结构相似性的优化化合物,并且Mol-CycleGAN是基于CycleGAN架构进行分子生成的第一种方法。
仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。
本文介绍由加拿大多伦多大学的Daniel Flam-Shepherd和Alán Aspuru-Guzik共同通讯发表在Nature Communications的研究成果:作者研究了语言模型学习复杂的分子分布的能力。通过编译更大、更复杂的分子分布,作者引入几个挑战性的分子生成任务评估语言模型的学习能力。结果表明,语言模型具有强大的生成能力,能够学习复杂的分子分布。语言模型可以准确生成:ZINC15数据集中惩罚 LogP得分最高分子的分布、PubChem数据集中多模态分子及最大分子的分布。
AC gan全称为Auxiliary Classifier GANs,翻译成中文就叫辅助分类器生成对抗网络。从名字可以看出,AC gan是对原有gan model修改后的一种model。
2021年10月25日,JCIM杂志发表MolGPT: Molecular Generation Using a Transformer-Decoder Model。该文章提出用Transformer-decoder模型进行分子生成。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
贪婪搜索是在每个时间步中选择概率最高的单词,也是我们最常用的一种方法,Beam Search不取每个标记本身的绝对概率,而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合适的标记序列。
熵这个概念在信息表示中就是“信息含量”,有时候我们常会说“这句话信息含量好多啊”,这也是一种熵的体现。对于一个事件来说,熵越大,也就是信息含量越大,其能实现的可能性越小,反之则亦然。
cross entropy有两种解释。一种是信息论KL散度角度,一种是概率论角度MLE。详见参考文献[1]。
来源:Deephub Imba本文约800字,建议阅读5分钟本文介绍了Python文本生成的Beam Search的解码。 贪婪搜索是在每个时间步中选择概率最高的单词,也是我们最常用的一种方法,Beam Search不取每个标记本身的绝对概率,而是考虑每个标记的所有可能扩展。然后根据其对数概率选择最合适的标记序列。 例如令牌的概率如下所示: 例如,Pancakes + looks时间段1的概率等效于: Pancakes looks so = log(0.2) + log(0.7)= -1.9Pancak
分子优化是在输入分子X的基础上产生具有更理想性质的分子Y。目前最先进的方法是将分子划分成一组大的子结构集S,并通过迭代预测从S中选择子结构添加来产生新的分子结构。 然而,由于可用子结构S集很大,这样的迭代预测任务往往是不准确的,特别是对于训练数据中不常见的子结构。
教程地址:http://www.showmeai.tech/tutorials/83
香农编码是是采用信源符号的累计概率分布函数来分配字码的。香农编码是根据香农第一定理直接得出的,指出了平均码长与信息之间的关系,同时也指出了可以通过编码使平均码长达到极限值。香农第一定理是将原始信源符号转化为新的码符号,使码符号尽量服从等概分布,从而每个码符号所携带的信息量达到最大,进而可以用尽量少的码符号传输信源信息。
版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/u012436149/article/details/53214016
本人kaggle分享链接:https://www.kaggle.com/c/bengaliai-cv19/discussion/128115
QED(quantitative estimate of drug-likeness)是一种将药物相似性量化为介于0和1之间的数值的方法。
总第82篇 01|概念及原理: EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代分两步完成:E步,求期望(expectation);M步,求极大值(maximization).所以这一算法称为期望极大算法,简称EM算法。(你看懂了吗?反正我第一次看是一脸懵。没关系接下来通过一个例子,你就能明白了。) (三硬币模型) 假设有A,B,C这些硬币正面出现的概率分别是π,p和q。进行如下掷硬币试验:先掷硬币A,根据其结果选出硬币B或C,正面选硬币B,反
对于一般概率模型的学习策略,我们往往会采取极大似然估计或者贝叶斯估计的方法对模型的参数进行估计,但是需要注意的是这种估计方法都是建立在待估参数全部为已经知道结果的参数(观测变量)的基础之上的。当模型中有隐变量/潜在变量(数据不可观测的变量)时,往往会给极大化似然函数带来困难(隐变量可能会使得似然很难,包含有和或者积分的对数,难以利用传统的方法求得解析解)。
https://www.nature.com/articles/s41588-022-01051-w
熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!香农提出的“信息熵”概念解决了这一问题。
自然语言处理问题中,一般以词作为基本单元,例如我们想要分析"我去过华盛顿州"这句话的情感,一般的做法是先将这句话进行分词,变成我,去过,华盛顿州,由于神经网络无法处理词,所以我们需要将这些词通过某些办法映射成词向量。词向量是用来表示词的向量,也可被认为是词的特征向量。把词映射为实数域向量的技术也叫词嵌入(word embedding)
现在很多文章开始出现这样的一种情况,在绘制火山图中,显示我们所关注的基因,那么如何去显示呢?很多人可能会这么做,在绘制普通的火山图之后,使用AI对图进行修改,添加部分基因,但是现在我要介绍的是如何用R绘制 library(ggpubr) library(ggthemes) data <- read.csv(“easy_input_limma.csv”, head=T,sep=’,’) #绘制基本热图 data l o g p < − − l o g 10 ( d a t a logp <- -log10(data logp<−−log10(dataadj.P.Val) ggscatter(data,x=“logFC”,y=“logp”)+theme_base()
不应该使用断言向程序的其他部分通告发生了可恢复性的错误,或者,不应该作为程序向用户通告问题的手段,断言只应该用于在测试阶段确定程序内部的错误信息。
2022年7月4日,加拿大布鲁克大学Yifeng Li团队在Frontiers in Pharmacology期刊上发表一篇题为《Multi-Objective Drug Design Based on Graph-Fragment Molecular Representation and Deep Evolutionary Learning》的论文。论文将药物设计建模为一个多目标优化问题,将基于片段的连接树变分自编码器这一深度生成模型融入深度进化学习框架中,取得了良好的实验结果。
PVP:Player VS Player PVP拥有多个高性能向量处理器,有向量寄存器和指令缓冲,不用高速缓存,共享内存。
目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!
今天给大家介绍Zhenpeng Zhou , Steven Kearnes等人在Nature/Scientific Reports上发表的文章“Optimization of Molecules via Deep Reinforcement Learning”。这篇文章主要是提出了一个Molecule Deep Q-Networks (MolDQN)框架,通过结合化学领域知识和先进的强化学习技术来进行分子优化。作者采用直接对分子修改的方式,来保证100%的化学有效性;而且在任何数据集上都不进行预训练,以避免可能的偏差;最后通过与其他几种最近发表的分子优化算法对比,得出基于MolDQN框架的分子优化可以获得更好的性能。
今天给大家介绍的是悉尼大学的Fangzhou Shi等人在2019年IEEE上发表的会议论文“Reinforced Molecule Generation with Heterogeneous States”。近年来,基于强化学习的方法利用图来表示并生成分子。然而,分子图表示可能忽略了分子的内在上下文信息,并相应地限制了生成性能。在本文中,作者提出用SMILES上下文向量来增强原始图的状态。SMILES表示很容易被简单的语言模型处理,这样就可以提取分子的一般语义特征;图表示在处理每个原子的拓扑关系方面表现得更好。此外,作者还提出了一个结合监督学习和强化学习算法的框架,以更好地考虑分子的这两种状态表示,它可以融合来自两者的信息,并提取更全面的特征,从而使策略网络能够做出更复杂的决策。模型还引入了两种注意机制,即动作注意和图注意,以进一步提高性能。作者在数据集ZINC上进行了实验,实验结果表明,此框架在分子生成和化学性质优化的学习性能方面优于其他基线方法。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/78774972
最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量机以及决策树算法都会加深理解。本文就对最大熵模型的原理做一个小结。
作者:龙心尘 &&寒小阳 出处: http://blog.csdn.net/han_xiaoyang/article/details/50503115 1. 剧情一:挑螃蟹的秘密 李雷与韩梅梅的关系发展得不错,趁国庆休假一起来天津玩。今天,李雷十分神秘地请韩梅梅去一家餐馆吃螃蟹。韩梅梅大失所望,这个餐馆很不起眼,感觉就像路边的老食堂。菜单都用粉笔写在黑板上,一点都不高档。一看价格,满黄螃蟹120块钱一只!这也太贵了。 李雷看到了韩梅梅的神情,笑着解释道:“这家店老板有一个绝活——会看螃蟹。他能保证1
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/JN_rainbow/article/details/88972193
在前面的内容里,我着重介绍了通信模型,信息论,以及把这些理论用在魔术上的基本思路。最后尤其说清楚了编码通信魔术的应用边界,是以辨识力效果作为主要表现形式的这类魔术的主要数学原理。相关内容请戳:
binomial logistic regression model 是一种分类模型,由条件概率分布
attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?hard attention、soft attention、global attention、local attention、self-attention, 啊,这些都是啥?相似度计算的dot、general、concat都是怎么计算的?
本文介绍由美国IBM研究院的Pin-Yu Chen和Payel Das共同通讯发表在 Nature Machine Intelligence 的研究成果:本文作者提出了一个通用的基于查询的分子优化框架,query-based molecule optimization framework(QMO),其利用了分子自动编码器的潜在嵌入。QMO基于高效查询,在一组分子性质预测和评估指标的外部指导下,改进输入分子的期望性质。在相似性约束下优化有机小分子药物相似性和溶解度的基准任务中,QMO优于现有的方法。此外,作者还展示了QMO在两个新的具有挑战性的任务中的性能:(1) 优化现有潜在的SARS-CoV-2主要蛋白酶抑制剂,使其具有更高的亲和力;(2) 改进已知的抗菌肽以降低毒性。QMO的结果与外部验证的结果高度一致,为解决具有约束的分子优化问题提供了一种有效的方法。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Solo95/article/details/91345229
本文介绍了加权有限状态机在语音识别中的应用,主要包括了WFST的基本操作、组合操作、确定化操作以及权重推移操作。在语音识别中,WFST可以用于表达发音词典、语言模型和声学模型,并通过贝叶斯公式将声学模型和语言模型结合起来。最终通过Viterbi算法或者beam-search算法,从声学特征中计算出对应的最小权重路径,从而得到最终的识别结果。
用句子SSS的概率p(S)p(S)p(S)来定量刻画句子。 统计语言模型是利用概率统计方法来学习参数p(wi∣w1…wi−1)p(w_i|w_1\dots w_{i-1})p(wi∣w1…wi−1),神经网络语言模型则通过神经网络学习参数.
【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的Structured learning-Structured SVM,这一节将主要针对讨论Structured learning-sequence labeling。本文内容主要针对机器学习中Structured learning- sequence labeling的POS tagging,Hidden Markov Model以及Conditional Random Field分别详细介绍。话不多说,让我们一起学习这些内容吧 课件
今天介绍美国佐治亚理工学院计算机学院的Jimeng Sun团队在AAAI2020的论文,该研究提出了一种分子生成模型的优化策略——CORE(Copy & Refine Strategy),其核心思想是:在每个生成步骤中,CORE将决定是从输入分子复制子结构(Copy)还是加入新的子结构(Refine)。
领取专属 10元无门槛券
手把手带您无忧上云