全局优化与局部优化的理念完全不同(全局优化求解器通常被称为随机求解器,试图避免局部最优点)。
本篇文章有别于传统的多因子研究,我们并未将重点放在阿尔法因子的挖掘上,而是通过对股票组合的权重优化计算,找到了在市值中性、行业中性、风格因子中性约束下的最优投资组合,以及验证得到的组合权重是否满足了约束条件。
一、介绍 数据分类是机器学习中非常重要的任务。支持向量机(SVM)广泛应用于模式分类和非线性回归领域。 SVM算法的原始形式由Vladimir N.Vapnik和Alexey Ya提出。自从那以后,SVM已经被巨大地改变以成功地用于许多现实世界问题,例如文本(和超文本)分类,图像分类,生物信息学(蛋白质分类,癌症分类),手写字符识别等。 二、目录 什么是支持向量机? SVM是如何工作的? 推导SVM方程 SVM的优缺点 用Python和R实现 1.什么是支持向量机(SVM)? 支持向量机是一种有监督的
今天给大家介绍来自美国加州大学团队发表在ICML2022上的文章。该论文提出了一种能够加快分子生成速度的LIMO模型。LIMO采用了变异自动编码器生成分子的的潜在表示,并且通过网络进行分子的属性预测,以实现更快的基于梯度的分子属性反向优化。综合实验表明,LIMO在基准任务上表现出竞争性,在生成具有高结合力的类药化合物的新任务上明显优于当前最先进的技术,并对两个蛋白质目标的结合力达到纳摩尔范围。作者利用更精确的基于分子动力学的绝对结合自由能计算,展示了生成的分子基于对接的结果,并表明模型生成的一个类药物化合物对人类雌激素受体的预测K D值(结合亲和力的度量值)远超过了早期的典型候选药物和大多数FDA批准的药物对其各自目标的亲和力。
一、线性可分支持向量机的概念 线性可分支持向量机是用于求解线性可分问题的分类问题。对于给定的线性可分训练数据集,通过间隔最大化构造相应的凸二次优化问题可以得到分离超平面: 以及相应的分类决策函
线性可分支持向量机是用于求解线性可分问题的分类问题。对于给定的线性可分训练数据集,通过间隔最大化构造相应的凸二次优化问题可以得到分离超平面:
近日,机器之心邀请了南京大学人工智能学院研究助理卞超通过线上分享的方式介绍他们入选 AAAI 2020 的研究论文《An Efficient Evolutionary Algorithm for Subset Selection with General Cost Constraints》。这篇论文提出了一个高效的演化算法 EAMC,来解决一般约束下的子集选择问题。本文将对这项研究成果进行介绍。
机器之心发布 作者:潘子琦 单位:上交BCMI实验室 现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包含种类无关的信息。在本文中,来自上海交通大学的研究者尝试建立信息瓶颈(Information Bottleneck, IB)和有监督解耦之间的联系,为有监督解耦提供理论指导。 信息瓶颈是一种从源数据中提取出与任务目标有关信息的方法,一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现。现有文献已经
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 前言 在支持向量机原理(一) 线性支持向量机中,我们对线性可分SVM的模型和损失函数优化做了总结。最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点,由于这些异常点导致了数据集不能线性可分,本篇就对线性支持向量机如何处理这些异常点的原理方法做一个总结。 线性可分SVM的算法过程 输入是线性可分的m个样本(x1,y1),(x2,y2),...,(xm,ym),,其中x
很多人第一次听说 SVM 时都觉得它是个非常厉害的东西,但其实 SVM 本身“只是”一个线性模型。
我们展示了如何将一个诺贝尔经济学奖获奖理论应用于股票市场,并使用简单的Python编程解决由此产生的优化问题。
在机器学习中,支持向量机(SVM,也叫支持向量网络),是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。是由Vapnik与同事(Boser等,1992;Guyon等,1993;Vapnik等,1997)在AT&T贝尔实验室开发。支持向量机是基于统计学习框架与由Chervonenkis(1974)和Vapnik(1982,1995)提出Vapnik–Chervonenkis理论上的最强大的预测方法之一。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。
在意识层面上,智能体并不在像素和其他传感器的层面上进行预测和规划,而是在抽象层面上进行预测。因为语义相关的比特数量(在语音中,例如音素、说话者的身份、韵律等)只是原始信号中总比特数的一小部分,所以这样可能更合适。
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
在支持向量机一中,我们介绍了当数据集是线性可分的时候,我们可以使用线性可分的支持向量机将数据进行分类(由于隔了很长时间才更新,因此忘记了支持向量机一的读者可以回看支持向量机一讲解)。但是,在现实生活中,还存在着很多数据是线性不可分的,或者说本来是线性可分的数据因为存在一些异常点,使得不能线性划分。
论文: Designing Neural Network Architectures using Reinforcement Learning
当你在逛超市的时候,你有没有想过商场里的商品的摆放方式有什么讲究?随着新零售时代的到来,超市如今已经开始逐渐转向精细化运营时代。面对成千上万商品,通过数据收集和分析技术不断提升销售效率是零售超市们如今最关心的事情。其中,如何让货架空间最大化是其中的关键因素之一。数据侠Deepesh Singh使用python和贪婪算法告诉你:货架空间优化的奥义就藏在那些简单的数据里。
Lingo是一种求解器软件,它主要用于求解线性规划问题。线性规划问题是一类最优化问题,它通常用于寻找最大化或最小化目标函数的最优解,同时满足一些约束条件。例如,假设我们有一家生产纸箱的工厂,现在我们需要确定每种纸箱的生产数量,以最大化利润,同时保证我们有足够的原材料和工人来完成工作。这就是一个典型的线性规划问题,我们可以使用Lingo来求解。
经过训练以减少预测误差的机器学习系统通常会根据敏感特征(如种族和性别)呈现歧视行为。一个原因可能是由于数据中的历史偏见。在包括贷款,招聘,刑事司法和广告在内的各种应用领域,机器学习因其损害历史上代表性不足或弱势群体的可能性而受到批评。
石头剪子布属于一种 zero-sum game,即一个人的 loss 是另一个人的 gain。
做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子。他的理论很优美,各种变种改进版本也很多,比如
a)学习时序数据点级别的表征,进而依靠重构或预测误差进行判定,例如RNN; b)通过图以显式关联建模,将具有不同时间点的时间序列表示为顶点,并通过随机游走检测异常。例如GNN。
本文介绍了支持向量机模型,首先介绍了硬间隔分类思想(最大化最小间隔),即在感知机的基础上提出了线性可分情况下最大化所有样本到超平面距离中的最小值。然后,在线性不可分的情况下,提出一种软间隔线性可分方式,定义了一种hinge损失,通过拉格朗日函数和对偶函数求解参数。其次,介绍线性模型中的一种强大操作—核函数,核函数不仅提供了支持向量机的非线性表示能力, 使其在高维空间寻找超平面,同时天然的适配于支持向量机。再次,介绍SMO优化方法加速求解支持向量机,SMO建立于坐标梯度上升算法之上,其思想与EM一致。最后,介绍支持向量机在回归问题上的应用方式,对比了几种常用损失的区别。
使用谷歌OR-工具的数学优化指南 图片由作者提供,表情符号由 OpenMoji(CC BY-SA 4.0) 线性编程是一种优化具有多个变量和约束条件的任何问题的技术。这是一个简单但强大的工具,每个数据科学家都应该掌握。 想象一下,你是一个招募军队的战略家。你有 三种资源。食物、木材和黄金 三个单位:️剑客,弓箭手,和马兵。 骑士比弓箭手更强,而弓箭手又比剑客更强。下表提供了每个单位的成本和力量。 图片由作者提供 现在我们有1200食物,800木材,600黄金。考虑到这些资源,我们应该如何最大化我们的军队
选自BAIR 作者:Lydia T. Liu、Sarah Dean、Esther Rolf、Max Simchowitz、Moritz Hardt 机器之心编译 参与:刘天赐、晓坤 由于机器学习系统容易受到历史数据引入的偏见而导致歧视性行为,人们认为有必要在某些应用场景中用公平性准则约束系统的行为,并期待其能保护弱势群体和带来长期收益。近日,伯克利 AI 研究院发表博客,讨论了静态公平性准则的长期影响,发现结果和人们的期望相差甚远。相关论文已被 ICML 2018 大会接收。 以「最小化预测误差」为目的训
单因子模型,考虑策略风险(即IC时序波动),最大化风险调整后收益的主动增强组合优化
自从大半年前接触到SVM以来,感觉一直没怎么把SVM整明白。直到最近上的《模式识别》课程才仿佛打通了我的任督二脉,使我终于搞清楚了SVM的来龙去脉,所以写个博客作个总结。
Python版本: Python3.x 运行平台: Windows IDE: Sublime text3 一、前言 说来惭愧,断更快半个月了,本打算是一周一篇的。感觉SVM瞬间难了不少,推导耗费了很多时间,同时身边的事情也不少,忙了许久。本篇文章参考了诸多大牛的文章写成的,对于什么是SVM做出了生动的阐述,同时也进行了线性SVM的理论推导,以及最后的编程实践,公式较多,还需静下心来一点一点推导。 本文出现的所有代码,均可在我的github上下载,欢迎Follow、Star:https://githu
线性规划是一种数学优化方法,用于求解线性目标函数在线性约束条件下的最优解。它在运筹学、经济学、工程等领域得到广泛应用。本文将深入讲解Python中的线性规划,包括基本概念、线性规划问题的标准形式、求解方法,并使用代码示例演示线性规划在实际问题中的应用。
这里两虚线之间的几何间隔r= d ∣ ∣ W ∣ ∣ \frac{d}{||W||} ∣∣W∣∣d,这里的d就为两虚线之间的函数间隔。 (一图读懂函数间隔与几何间隔)
这就是我们出的新方法:批量核范数最大化(Batch Nuclear-norm Maximization)。
在上一次的介绍中,我们稍微了解到了关于support vector machine 的一些入门知识。今天,我们将真正进入支持向量机的算法之中,大体的框架如下: 1、最大间隔分类器 2、线性可分的情况(详细) 3、原始问题到对偶问题的转化 4、序列最小最优化算法 1、最大间隔分类器 函数间隔和几何间隔相差一个∥w∥ 的缩放因子(感觉忘记的可以看一下上一篇文章)。按照前面的分析,对一个数据点进行分类,当它的间隔越大的候,分类正确的把握越大。对于一个包含n 个点的数据集,我们可以很自然地定义它的间
好不容易学了一门编程语言 Python,又懂一点 Excel 操作,感觉自己无所不能了。直到有一天遇到了凑数最优问题,看似很简单,但始终无法解决。
等渗回归是很少被谈论但肯定是最酷的回归技术之一。我之所以说“很少谈论”,是因为与线性回归不同,它不经常被讲授或使用。等渗回归做出一个更笼统的假设,即最能代表数据的函数是单调的,而不是线性的(是的,线性也是单调的,反之亦然)。
本系列是机器学习课程的系列课程,主要介绍机器学习中分类算法,本篇为分类算法与SVM算法部分。
纳什均衡是否可以由一种算法或者一个策略型参与者自己很快计算出来呢?部分简单的博弈中,可以使用线性规划、迭代学习等算法求解纳什均衡。这些算法的结果使得我们相信纳什均衡对于零和博弈有很好的预测能力。 但是在非零和双人博弈中,并不存在能计算纳什均衡的快速算法。计算双人博弈的纳什均衡是一个少有的、自然的且展现出中等计算困难度的问题。 只有存在有效算法快速求解均衡,均衡对于博弈的预测能力才具有意义。博弈中也可能存在多个纳什均衡,均衡的不唯一性也削弱了均衡的预测能力。对于计算机从业者来说,严格均衡的不可计算性使得我们开始研究计算可行的均衡概念,例如相关均衡、粗糙相关均衡。
FBA的第一步是用数学方法表示代谢反应。这种表示的核心特征是以数值矩阵的形式列出每个反应的化学计量系数。这些化学计量对代谢物通过网络的流动施加了限制。诸如此类的限制是FBA的核心。
现有5个广告投放渠道,分别是日间电视、夜间电视、网络媒体、平面媒体、户外广告,每个渠道的效果、费用及限制如下表所示:
Lingo软件是一种常用的优化建模和求解工具,该软件提供了一系列功能和模块,使其成为研究人员和企业专业人员必不可少的工具。本文将探讨Lingo软件的特色功能和使用方法,并提供一个详细的操作指南。
支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域,并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法,不考虑特定的训练数据集,在分类算法中的表现SVM说是排第一估计是没有什么异议的。
支持向量机是1992年由Bell实验室的vladimir Vapnik和他的同事首次提出的。然而,许多人并不知道支持向量机的基础知识早在20世纪60年代他在莫斯科大学的博士论文中就已经开发出来了。几十年来,SVM一直受到很多人的青睐,因为它使用更少的计算资源,同时允许数据科学家获得显著的准确性。更不用说它同时解决了分类和回归问题。
支持向量机(SVM)旨在解决「分类」问题。数据通常包含一定数量的条目/行/点。现在,我们想对每个数据点进行分类。为简单起见,我们假设两个类别:「正类」和「负类」。这或许可以帮助解答以下问题:
本文利用信息论中的信息瓶颈(这边可以理解为互信息,文中用到的都是互信息)理论结合因果推断中的因果图,来对推荐系统进行纠偏。纠偏的背景就不过多介绍了,简而言之就是,反馈和推荐之间关系,以及热门和冷门item对推荐的影响。具体案例可以看前几篇纠偏相关文章。
Paper:Optimized Cost per Click in Taobao Display Advertising
主成分分析(PCA)是一种降维算法,通常用于高维数据降维减少计算量以及数据的降维可视化。在本文中,我将从机器学习的角度来探讨主成分分析的基本思想。本次只涉及简单的PCA,不包括PCA的变体,如概率PCA和内核PCA。
约束优化(Constrained Optimization),即约束优化问题,是优化问题的分支。它是在一系列约束条件下,寻找一组参数值,使某个或某一组函数的目标值达到最优。其中约束条件既可以是等式约束也可以是不等式约束。寻找这一组参数值的关键可是:满足约束条件和目标值要达到最优。求解约束问题的方法可分为传统方法和进化算法。
今天给大家介绍的是来自华为诺亚方舟实验室发表在 arxiv 上的预印本《AntBO: Towards Real-World Automated Antibody Design with Combinatorial Bayesian Optimisation》。作者设计了一种组合贝叶斯优化框架 AntBO ,可实现抗体 CDRH3 区域的高效计算设计。并使用 Absolut! 软件套件对 AntBO 进行基准测试与评分。对 188 种抗原设计抗体的结果证明了 AntBO 在设计具有不同生物物理特性的 CDRH3 区域方面的优势。只需要不到 200 种蛋白质设计,AntBO 推荐的序列就可以优于从 690 万个CDRH3的实验数据库和常用遗传算法提取的最佳序列。
上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大。FGM的tensorflow实现详见Github-SimpleClassification
领取专属 10元无门槛券
手把手带您无忧上云