作者:贾子钰(新加坡国立大学) 研究方向:时序预测
国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议 (CCF-A)
ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
整理了ICML 2022关于时间序列相关的论文,围绕时间序列预测、分类、异常检测、表示学习以及在医疗、生物、交通、音乐、金融等方向的应用。
论文标题:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting
论文链接:https://arxiv.org/abs/2201.12740
PPT链接:https://icml.cc/media/icml-2022/Slides/17986.pdf
代码链接:https://github.com/MAZiqing/FEDformer
研究方向:长时间序列预测
一句话总结全文:将Transformer与季节趋势分解方法相结合,并开发了一种频率增强Transformer——频率增强分解变压器(FEDformer),有效解决了预测精度急剧下降的问题。
研究内容:长期时间序列预测具有挑战性,因为随着视距的增加,预测精度会急剧下降。尽管基于变压器的方法显著改善了长期预测的最先进结果,但它们不仅计算成本高,更重要的是,无法捕捉时间序列的全局视图(如总体趋势)。为了解决这些问题,我们建议将Transformer与季节趋势分解方法相结合,其中分解方法捕获时间序列的全局剖面,而Transformer则捕获更详细的结构。为了进一步增强Transformer在长期预测中的性能,我们利用了大多数时间序列往往在一个众所周知的基(如傅里叶变换)中具有稀疏表示的事实,并开发了一种频率增强Transformer。该方法被称为频率增强分解变压器(FEDformer),除具有更高的效率外,还具有比标准变压器更高的效率,其复杂度与序列长度成线性关系。在6个基准数据集上的实证研究表明,Fedformer对多变量和单变量时间序列的预测误差分别比最新的方法降低了14.8%和22.6%。
论文标题:Modeling Irregular Time Series with Continuous Recurrent Units
论文链接:https://arxiv.org/abs/2111.11344
PPT链接:https://icml.cc/media/icml-2022/Slides/16343.pdf
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/5b4130c9e891d39891289001cc97d86b.png
研究方向:不规则采样的时间序列建模
一句话总结全文:提出了连续循环单位——CRUs,解决了在许多数据集(如医疗记录)中,观察时间是不规律的,并且可能携带重要信息的挑战。可以比基于神经常微分方程的方法更好地插值不规则时间序列。
研究内容:递归神经网络(RNNs)是一个流行的选择建模顺序数据。现代RNN架构假设观测之间的时间间隔恒定。然而,在许多数据集(如医疗记录)中,观察时间是不规律的,并且可能携带重要信息。为了应对这一挑战,我们提出了连续循环单位(CRUs)——一种可以自然处理观察之间不规律间隔的神经结构。CRU假设一个隐藏状态,它根据线性随机微分方程演变,并集成到一个编码器-解码器框架。CRU的递推计算可以用连续-离散卡尔曼滤波器导出,并且是封闭形式。由此产生的循环架构在隐藏状态和门控机制之间具有时间连续性,可以最佳地集成噪声观测。我们提出了一种有效的CRU参数化方案,可快速实现f-CRU。我们在大量具有挑战性的数据集上对CRU进行了实证研究,发现它可以比基于神经常微分方程的方法更好地插值不规则时间序列。
论文标题:TACTiS: Transformer-Attentional Copulas for Time Series
论文链接:https://arxiv.org/abs/2202.03528
PPT链接:https://icml.cc/media/icml-2022/Slides/16594.pdf
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/514f94b7b871de0eacb221709d341aec.png
研究方向:时间序列预测
一句话总结全文:解决了估计高维多元时间序列的联合预测分布的问题,提出的Transformer可以对时序进行预测和插值。
研究内容:时变量的估计是医疗保健和金融等领域决策的一个基本组成部分。然而,这种估计的实际效用受到其量化预测不确定性的准确性的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种通用的方法,基于变压器架构,使用基于注意的解码器估计联合分布,可证明学习模仿非参数连接的属性。得到的模型具有几个令人满意的特性:它可以扩展到数百个时间序列,支持预测和插值,可以处理非对齐和非均匀采样数据,并可以无缝适应训练期间的缺失数据。我们以经验的方式展示了这些属性,并表明我们的模型在多个现实世界的数据集上产生了最先进的预测。
论文标题:Closed-Form Diffeomorphic Transformations for Time Series Alignment
论文链接:https://arxiv.org/abs/2206.08107
PPT链接:https://icml.cc/media/icml-2022/Slides/17697.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/371bce7dc83817b7893bcdeed13799b5_Vdn44Un.png
一句话总结全文:提出了一个闭合形式的ODE解及其梯度在连续分段仿射(CPA)速度函数。
研究内容:时间序列对齐方法需要具有高度表达性、可微性和可逆性的扭曲函数来保持时间拓扑,即差分同构。在常微分方程(ODE)控制下的速度场积分可以产生异形扭曲函数。包含异构变换的基于梯度的优化框架需要计算微分方程的解对模型参数的导数,即敏感性分析。不幸的是,深度学习框架通常缺乏自动微分兼容的灵敏度分析方法;隐函数,比如ODE的解,需要特别小心。目前的解决方案呼吁伴随灵敏度方法,特别的数值求解或ResNet的欧拉离散化。在这项工作中,我们提出了一个闭合形式的ODE解及其梯度在连续分段仿射(CPA)速度函数。我们提出了一个高度优化的结果在CPU和GPU上的实现。此外,我们在多个数据集上进行了大量的实验,以验证我们的模型对不可见数据的泛化能力。结果表明,在效率和准确性方面都有显著提高。
论文标题:Reconstructing Nonlinear Dynamical Systems from Multi-Modal Time Series
论文链接:https://proceedings.mlr.press/v162/kramer22a.html
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/860052df4915de4d6c3deac9f7ebf5cc_I9JU7vo.png
研究方向:多模态时间序列分析
一句话总结全文:提出了一个多模态数据集成的通用框架,用于非线性DS重构和跨模态关系分析。
研究内容:在物理学、生物学或医学中,经验观察到的时间序列通常是由一些潜在的动力系统(DS)产生的,这是科学感兴趣的目标。人们对收获机器学习方法以数据驱动、无监督的方式重建这个潜在的DS越来越感兴趣。在许多科学领域中,从多种数据模式中同时采样时间序列观测是很常见的,例如,在典型的神经科学实验中,电生理和行为时间序列。然而,目前用于重建决策系统的机器学习工具通常只关注一种数据模态。本文提出了一个多模态数据集成的通用框架,用于非线性DS重构和跨模态关系分析。该框架是基于动态可解释的递归神经网络作为非线性决策系统的一般逼近器,耦合从一类广义线性模型的模式特定解码器模型集。提出并比较了期望最大化和变分推理两种模型训练算法。我们在非线性DS基准测试中展示了我们的算法可以通过利用其他通道有效地补偿一个数据通道中过于嘈杂或缺失的信息,并在实验神经科学数据上演示了算法如何学习将不同的数据域连接到底层动态。
论文标题:Unsupervised Time-Series Representation Learning with Iterative Bilinear Temporal-Spectral Fusion
论文链接:https://arxiv.org/abs/2202.04770
PPT链接:https://icml.cc/media/icml-2022/Slides/16051.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/009c434cab57de48a31f6b669e7ba266_hPcNn6H.png
研究方向:无监督/自监督时间序列(分类、预测和异常检测)
一句话总结全文:提出了一个统一的框架,即双线性时间谱融合——BTSF,解决了由于失去全局上下文,可能会导致抽样偏差和错误的优化和假阴性和不注重将光谱信息纳入特征表示的问题。
研究内容:无监督/自监督时间序列表示学习是一个具有挑战性的问题,因为它具有复杂的动态和稀疏的注释。现有的研究主要采用对比学习的框架,利用基于时间的增强技术对正负号进行抽样,进行对比训练。然而,它们大多使用由时间切片衍生的分段级增强,由于失去全局上下文,可能会导致抽样偏差和错误的优化和假阴性。此外,它们都不注重将光谱信息纳入特征表示。在本文中,我们提出了一个统一的框架,即双线性时间谱融合(BTSF)。具体来说,我们首先利用实例级扩展,在整个时间序列上进行简单的退出,以最大限度地捕获长期依赖项。我们设计了一种新颖的迭代双线性时间-光谱融合,以显式编码丰富的时间-频率对的亲和力,并利用频谱-时间(S2T)和时间-频谱(T2S)聚合模块以融合-挤压的方式迭代细化表示。我们首先对时间序列的分类、预测和异常检测三个主要任务进行下游评价。实验结果表明,我们的BTSF始终显著优于最先进的方法。
论文标题:Deep Variational Graph Convolutional Recurrent Network for Multivariate Time Series Anomaly Detection
论文链接:https://proceedings.mlr.press/v162/chen22x.html
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/a9be4c2a4041cadbf9d61ae16dd1389e.png
研究方向:多变量时间序列异常检测
研究内容:多变量时间序列中的异常检测是数据挖掘和服务质量管理的重要课题。近年来在异常检测方面的研究主要集中在设计无监督概率模型来提取MTS的鲁棒正态模式上,本文通过开发嵌入引导的概率生成网络,对MTS中的传感器相关性和随机性进行建模。我们将其与自适应变分图卷积递归网络%相结合,得到了变分GCRN (VGCRN),用于在MTS中建模空间和时间上的细粒度相关性,为了探索分层潜在表示,我们进一步将VGCRN扩展到一个深度变分网络,该网络在不同层次捕获多层次信息,对有噪声的时间序列具有鲁棒性。此外,我们开发了一种向上向下的变分推断方案,该方案考虑了基于预测和基于重建的损失,以更好的MTS表示实现了潜在变量的准确后验逼近。实验验证了该方法相对于现有方法的优越性。
论文标题:Learning of Cluster-based Feature Importance for Electronic Health Record Time-series
论文链接:https://proceedings.mlr.press/v162/aguiar22a.html
PPT链接:https://icml.cc/media/icml-2022/Slides/17712.pdf
研究方向:电子健康记录(EHR)数据分析
一句话总结全文:提出了一种有监督的深度学习模型来聚类EHR数据, 经过测试模型增加了集群形成的可解释性,并在相关指标上超过基准至少4%。
研究内容:最近电子健康记录(EHR)的可用性已经允许开发预测住院病人恶化和轨迹演变风险的算法。然而,由于这些数据是稀疏的、异构的、多维的、多模态的时间序列,EHR疾病进展的预测具有挑战性。因此,聚类经常用于确定患者队列中的相似群体,以改善预测。目前的模型在获得患者轨迹的聚类表示方面取得了一些成功。然而,他们i)无法获得每个聚类的临床可解释性,ii)在疾病结果分布不平衡的情况下难以学习到有意义的聚类数。我们提出了一种有监督的深度学习模型来聚类EHR数据,该模型基于临床可理解表型的识别,与结果预测和患者轨迹有关。我们引入了新的损失函数来解决类不平衡和簇崩溃的问题,并进一步提出了一种特征时间关注机制来识别基于簇的表型在时间和特征维度上的重要性。我们在两个对应于不同医疗环境的数据集中测试了我们的模型。我们的模型增加了集群形成的可解释性,并在相关指标上超过基准至少4%。
论文标题:Domain Adaptation for Time Series Forecasting via Attention Sharing
论文链接:https://proceedings.mlr.press/v162/jin22d.html
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/334467d41d5cf21e234465a1530ba647.png
研究方向:基于DA的时间序列预测
一句话总结全文: 提出了一种新的领域适应框架——领域适应预测器(DAF),解决了数据稀缺的问题。
研究内容:近年来,深度神经网络在时间序列预测领域得到了越来越广泛的应用。他们成功的一个主要原因是他们能够有效地跨越多个相关的时间序列捕捉复杂的时间动态。这些深度预测的优势只有在有足够数量的数据时才开始显现。这对实践中典型的预测问题提出了挑战,在这些问题中,每个时间序列或每个时间序列的观测数量有限,或两者兼有。为了解决数据稀缺的问题,我们提出了一种新的领域适应框架——领域适应预测器(domain adaptation Forecaster, DAF)。DAF利用具有丰富数据样本(源)的相关领域的统计优势,以提高具有有限数据(目标)的感兴趣领域的性能。特别地,我们使用了一个基于关注的共享模块,它带有跨域的域识别器,以及针对单个域的私有模块。我们同时诱导领域不变的潜在特征(查询和密钥)和再训练领域特定的特征(值),以使预测者能够在源和目标领域上联合训练。一个主要的见解是,我们对键的设计允许目标域利用源时间序列,即使具有不同的特征。在各个领域的广泛实验表明,我们提出的方法在合成和真实数据集上优于最先进的基线,消融研究验证了我们设计选择的有效性。
论文标题:Adaptive Conformal Predictions for Time Series
论文链接:https://proceedings.mlr.press/v162/zaffran22a.html
PPT链接:https://icml.cc/media/icml-2022/Slides/17817_45KQty1.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/b59442085644532ef03417a3e5a76437_ShcNJIg.png
研究方向: 时间序列预测
一句话总结全文: 提出了一种无参数方法AgACI,进行了一个真实的案例研究:电价预测,证明了其有效性。
研究内容:预测模型的不确定性量化是决策问题的关键。共形预测是一个普遍的和理论上合理的答案。但是,它需要可交换的数据,不包括时间序列。虽然最近的工作解决了这个问题,我们认为自适应共形推理(ACI, Gibbs & Candès, 2021),为分布-移位时间序列开发,是具有一般依赖性的时间序列的一个很好的程序。在可交换和自回归的情况下,我们从理论上分析了学习率对学习率效率的影响。我们提出了一种无参数方法AgACI,该方法自适应地建立在基于在线专家聚合的ACI基础上。我们对倡导在时间序列中使用ACI的竞争方法进行了广泛的公平模拟。我们进行了一个真实的案例研究:电价预测。该聚合算法为日前预测提供了有效的预测区间。
论文标题:Utilizing Expert Features for Contrastive Learning of Time-Series Representations
论文链接:https://arxiv.org/abs/2206.11517
PPT链接:https://icml.cc/media/icml-2022/Slides/18038.pdf
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/14db62200d8bf46551aa214accafe1df.png
研究方向:时间序列对比学习
一句话总结全文:设计了ExpCLR,一种新的对比学习方法,结合了工业或医疗领域特点,即专家特征通常可以从领域专家那里获得。
研究内容:我们提出了一种结合专家知识的时间序列表示学习方法。我们的方法采用专家特征来替代以往对比学习方法中常用的数据转换。我们这样做是因为时间序列数据通常来自工业或医疗领域,在这些领域中,专家特征通常可以从领域专家那里获得,而时间序列数据通常难以进行转换。我们首先提出了两个有用的时间序列表示应该满足的性质,并表明目前的表示学习方法不能确保这些性质。因此,我们设计了ExpCLR,一种新的对比学习方法,其目标是利用专家特征来鼓励学习表征的两种属性。最后,我们在三个真实的时间序列数据集上演示了ExpCLR在无监督和半监督表示学习方面超过了几种最先进的方法。
论文标题:Transformer Neural Processes: Uncertainty-Aware Meta Learning Via Sequence Modeling
论文链接:https://arxiv.org/abs/2207.04179
PPT链接:https://icml.cc/media/icml-2022/Slides/17524_JaSq5IX.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/bf8dd8c68d02e161c28dc9ea139d4784_8KSxYQh.png
研究方向:序列建模、神经过程、不确定性
一句话总结全文:提出了变压器神经过程——TNPs,它将不确定性感知元学习视为序列建模问题。
研究内容:神经过程(NPs)是一种流行的元学习方法。与高斯过程(GPs)类似,NPs定义函数上的分布,并可以估计其预测的不确定性。然而,与全科医生不同,NPs及其变体存在拟合不足,并且往往具有难以处理的可能性,这限制了它们在序列决策中的应用。我们提出了变压器神经过程(TNPs),这是NP家族的一个新成员,它将不确定性感知元学习视为序列建模问题。我们通过一个基于自回归似然的目标来学习TNPs,并使用一种新的基于变压器的架构来实例化它,该架构尊重问题结构固有的归纳偏差,例如对观测数据点的不变性和对未观测点的等方差。我们进一步在TNP架构中设计旋钮,以权衡译码分发的表现力增加与额外的计算。根据经验,我们表明,TNPs在各种基准问题上取得了最先进的性能,在元回归、图像完成、上下文多武装强盗和贝叶斯优化方面优于所有以前的NP变体。
论文标题:Accelerating Bayesian Optimization for Biological Sequence Design with Denoising Autoencoders
论文链接:https://proceedings.mlr.press/v162/stanton22a.html
PPT链接:https://icml.cc/media/icml-2022/Slides/18028.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/34ad9bc83e3c72c62281cb2c744ac966_McpNQsy.png
研究方向:生物序列数据建模、贝叶斯优化
一句话总结全文:开发了一种新的方法——LaMBO,该方法联合训练了一种带有判别式多任务高斯过程头的去噪自编码器,允许在自编码器的潜在空间中基于梯度的多目标捕获函数优化。
研究内容:贝叶斯优化(BayesOpt)是查询高效的连续优化的黄金标准。然而,由于决策变量的离散性、高维性,其在药物设计中的应用受到了阻碍。我们开发了一种新的方法(LaMBO),该方法联合训练了一种带有判别式多任务高斯过程头的去噪自编码器,允许在自编码器的潜在空间中基于梯度的多目标捕获函数优化。这些采集功能使LaMBO能够在多个设计回合中平衡勘探-开发权衡,并通过在帕累托边界的许多不同点上优化序列来平衡目标权衡。我们在两个小分子设计任务上评估了LaMBO,并引入了新的任务优化了大分子荧光蛋白的硅和体外性质。在实验中,LaMBO算法的性能优于遗传优化算法,且不需要大量的预训练语料库,证明了BayesOpt算法在生物序列设计中的实用性和有效性。
论文标题:CITRIS: Causal Identifiability from Temporal Intervened Sequences
论文链接:https://arxiv.org/abs/2202.03169
PPT链接:https://icml.cc/media/icml-2022/Slides/17426_PzSasFh.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/43cca4b3de2097b9558efefd0ecc3588_USh52N9.png
研究方向:时间序列因果分析
一句话总结全文:提出了一种变分自编码器框架——CITRIS,可以从潜在的因果因素可能被干预的图像的时间序列中学习因果表示。
研究内容:从视觉观察中了解动态系统的潜在因果因素被认为是走向复杂环境中的代理推理的关键一步。在本文中,我们提出了CITRIS,这是一种变分自编码器框架,可以从潜在的因果因素可能被干预的图像的时间序列中学习因果表示。与最近的文献相比,CITRIS利用时间性和观察干预目标来识别标量和多维的因果因素,如三维旋转角度。此外,通过引入一个规范化流程,CITRIS可以很容易地扩展到利用和解缠已经预先训练的自动编码器获得的表示。扩展了先前关于标量因果因素的结果,我们证明了在更一般的情况下的可识别性,在这种情况下,只有一个因果因素的某些组成部分受到干预的影响。在3D渲染图像序列的实验中,CITRIS在恢复潜在因果变量方面优于以往的方法。此外,使用预训练的自动编码器,CITRIS甚至可以推广到不可见的因果因素实例,为因果表示学习的简单到真实的推广开辟了未来的研究领域。
论文标题:Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration
论文链接:https://proceedings.mlr.press/v162/lin22d.html
PPT链接:https://icml.cc/media/icml-2022/Slides/16143.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/6d70cb65d15211726dcce4c0e971e21c_54IRo89.png
代码链接:https://github.com/linjing7/VR-Baseline
研究方向:Sequence-to-Sequence计算机视觉模型
一句话总结全文:提出一种无监督流程对齐的序列对序列模型——S2SVR来正确地建模视频序列中的帧间关系。
研究内容:如何正确地建模视频序列中的帧间关系是视频恢复(VR)中一个重要但尚未解决的问题。在本研究中,我们提出一种无监督流程对齐的序列对序列模型(S2SVR)来解决这个问题。一方面,首次在VR中探索了在自然语言处理领域被证明能够进行序列建模的序列对序列模型。优化的序列化建模显示了捕获帧之间的远程依赖关系的潜力。另一方面,我们装备了一个无监督光流估计的序列模型,以最大限度地发挥其潜力。流量估计器使用我们提出的无监督蒸馏损失进行训练,这可以缓解以往基于流量的方法的数据差异和不准确的退化光流量问题。通过可靠的光流,我们可以建立多个帧之间的精确对应关系,缩小一维语言帧和二维失调帧之间的域差异,提高序列对序列模型的潜力。S2SVR在多个VR任务中表现出卓越的性能,包括视频去模糊、视频超分辨率、压缩视频质量增强等。
论文标题:Proximal Exploration for Model-guided Protein Sequence Design
PPT链接:https://icml.cc/media/icml-2022/Slides/17764_tb7HE1c.pdf
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/9f96f36b7aae3b1ff847c26ac94c604e.png
研究方向:蛋白质序列分析
一句话总结全文:提出了近端探索——PEX算法和突变因子分解网络——MuFacNet,以预测低阶突变效应,提高模型引导进化的样本效率。
研究内容:设计具有特定生物功能的蛋白质序列是蛋白质工程长期面临的挑战。机器学习指导方法的最新进展集中在构建替代序列函数模型,以减少昂贵的实验室实验负担。本文研究了模型导向序列设计的探索机制。我们利用了蛋白质适应性的自然特性,即在野生型序列上的一组简洁的突变通常足以增强所需的功能。通过利用这一特性,我们提出了近端探索(PEX)算法,优先进化搜索具有低突变计数的高适应度突变。此外,我们开发了一种专门的模型体系结构,称为突变因子分解网络(MuFacNet),以预测低阶突变效应,进一步提高了模型引导进化的样本效率。在实验中,我们在一系列硅蛋白序列设计任务中广泛评估了我们的方法,并证明了我们的方法比基线算法有实质性的改进。
论文标题:Biological Sequence Design with GFlowNets
PPT链接:https://icml.cc/media/icml-2022/Slides/17338.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/2327fdecafc97928d5ba62af00a05704_nAgr1l8.png
研究方向:生物序列分析
一句话总结全文:提出了一种主动学习算法,利用认知不确定性估计和最近提出的GFlowNets作为不同候选解决方案的生成器,以获得有用信息。
研究内容:设计具有理想特性的从头生物序列,如蛋白质和DNA序列,通常需要一个主动循环,需要几轮分子构思和昂贵的湿式实验室评估。这些实验可以由多个阶段组成,随着精度和评估成本的提高,筛选候选人。这使得候选人的多样性成为构思阶段的关键考虑因素。在这项工作中,我们提出了一种主动学习算法,利用认知不确定性估计和最近提出的GFlowNets作为不同候选解决方案的生成器,目的是在每一轮之后获得不同批次的有用的(如由某些效用函数定义的,如肽的预测抗微生物活性)和有信息的候选。我们还提出了一个方案,将现有的标记数据集的候选,除了一个奖励函数,以加快GFlowNets的学习。我们展示了几个生物序列设计任务的实证结果,我们发现与现有方法相比,我们的方法产生了更多样化和新的高得分候选批次。
论文标题:Causal Conceptions of Fairness and their Consequences
论文链接:https://proceedings.mlr.press/v162/nilforoshan22a.html
PPT链接:https://icml.cc/media/icml-2022/Slides/17122_eHjIkLG.pdf
研究方向:因果关系、公平决策算法
研究内容:最近的工作强调了因果关系在设计公平决策算法中的作用。然而,目前还不清楚现有的公平的因果概念是如何相互联系的,或者使用这些定义作为设计原则的后果是什么。在这里,我们首先将算法公平的流行因果定义集合并分类为两个大类:(1)那些约束决策对反事实差异的影响的因果定义;(2)限制受法律保护的特征,如种族和性别,对决策的影响。然后,我们通过分析和经验证明,这两种定义家族几乎总是——在测量理论意义上——导致强烈的帕累托支配决策政策,这意味着存在一个替代的、不受约束的政策,每个利益相关者的偏好来自一个大的、自然的阶层。例如,在大学录取决定的情况下,约束于满足因果公平定义的政策将不受每一个对学术准备和多样性具有中立或积极偏好的利益相关者的青睐。事实上,在因果公平的显著定义下,我们证明了由此产生的政策要求以相同的概率录取所有学生,无论其学历或群体成员。我们的结果突出了因果公平的常见数学概念的形式限制和潜在的不利后果。
论文标题:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
论文链接:https://arxiv.org/abs/2202.03052
PPT链接:https://icml.cc/media/icml-2022/Slides/17835_b3yKPXu.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/6917ff2a7b53421ff4066020e2d89eec_ODAb1me.png
代码链接:https://github.com/OFA-Sys/OFA
研究方向:基于Sequence-to-Sequence多模态预训练
一句话总结全文:提出了OFA——一个支持任务全面性的任务不可知论和模式不可知论框架。其将一系列跨模态和单模态的任务统一在一个简单的序列到序列的学习框架中。
研究内容:在这项工作中,我们追求一个统一的多模态预训练范式,以打破复杂任务/模态定制的桎梏。我们提出OFA,一个支持任务全面性的任务不可知论和模式不可知论框架。OFA将一系列跨模态和单模态的任务,包括图像生成、视觉基础、图像标题、图像分类、语言建模等,统一在一个简单的序列到序列的学习框架中。OFA在训练前和微调阶段都采用基于指令的学习方式,对下游任务不需要额外的任务特定层。与最近最先进的视觉和语言模型(依赖于超大的跨模式数据集)相比,OFA只在20M公开可用的图像-文本对上进行了预训练。尽管OFA的操作简单且训练数据相对较小,但它在一系列跨模式任务中实现了新的SOTAs,同时在单模态任务中获得了高度竞争性的性能。我们的进一步分析表明,OFA还可以有效地转移到未见任务和未见域。
论文标题:SkexGen: Autoregressive Generation of CAD Construction Sequences with Disentangled Codebooks
论文链接:https://arxiv.org/abs/2207.04632
PPT链接:https://icml.cc/media/icml-2022/Slides/18218.pdf
海报链接:
https://icml.cc/media/PosterPDFs/ICML%202022/b6f0479ae87d244975439c6124592772_ksZ7D4K.png
代码链接:https://samxuxiang.github.io/skexgen
研究方向:计算机辅助设计(CAD)结构序列分析
一句话总结全文:提出了一种新的自回归生成模型——SkexGen,用于计算机辅助设计(CAD)结构序列。
研究内容:我们提出了一种新的自回归生成模型SkexGen,用于计算机辅助设计(CAD)结构序列,包括草图和挤压建模操作。我们的模型利用独特的Transformer架构将构造序列的拓扑、几何和挤压变化编码到解缠的代码本中。自回归变压器解码器生成的CAD构造序列共享由码本向量指定的某些属性。大量的实验表明,我们的解纠缠码本表示产生了多样化和高质量的CAD模型,增强了用户控制,并使设计空间的有效探索。
论文标题:Style Equalization: Unsupervised Learning of Controllable Generative Sequence Models
论文链接:https://arxiv.org/abs/2110.02891
PPT链接:https://icml.cc/media/icml-2022/Slides/16200.pdf
海报链接:https://icml.cc/media/PosterPDFs/ICML%202022/7e6ff0205749bc6025b51155e26f6ced.png
研究方向:可控序列生成、无监督
一句话总结全文:使用样式转换模块将目标样式信息转换为不相关的样式输入,解决了可控生成序列模型在无监督学习过程中遇到的训练-推理不匹配问题。
研究内容:可控的生成序列模型能够提取和复制特定示例的风格,使许多应用成为可能,包括以不同的声音叙述有声读物,自动补全和自动纠正手写,以及为下游识别任务生成缺失的训练样本。然而,在无监督样式设置下,可控序列生成模型的典型训练算法存在训练与推理不匹配的问题,即训练时使用相同的样本作为内容和样式输入,而推理时给出的是不配对的样本。在本文中,我们解决了可控生成序列模型在无监督学习过程中遇到的训练-推理不匹配问题。该方法简单有效,我们使用样式转换模块将目标样式信息转换为不相关的样式输入。该方法允许使用不配对的内容和样式样本进行训练,从而减轻训练推断不匹配的问题。我们将风格均衡应用于三个数据集上的文本到语音和文本到笔迹合成。我们进行全面的评估,包括定量和定性的用户研究。我们的结果表明,通过减少训练推断与建议的风格均衡的不匹配,我们在用户研究中获得了与真实数据相当的风格复制分数。