首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每日论文速递 | DeepMind提出在线偏好对齐新方法:IPO-MD

    摘要:确保语言模型的输出与人类偏好相一致,对于保证有用、安全和愉快的用户体验至关重要。因此,近来人们对人类对齐问题进行了广泛研究,并出现了一些方法,如人类反馈强化学习(RLHF)、直接策略优化(DPO)和序列似然校准(SLiC)。在本文中,我们有两方面的贡献。首先,我们展示了最近出现的两种配准方法,即身份策略优化(IPO)和纳什镜像下降(Nash-MD)之间的等价性。其次,我们引入了 IPO 的概括,命名为 IPO-MD,它利用了 Nash-MD 提出的正则化采样方法。这种等价性乍看起来可能令人惊讶,因为 IPO 是一种离线方法,而 Nash-MD 是一种使用偏好模型的在线方法。然而,如果我们考虑 IPO 的在线版本,即两代人都由在线策略采样并由训练有素的偏好模型注释,就可以证明这种等价性。利用这样的数据流优化 IPO 损失,就等同于通过自我博弈找到偏好模型的纳什均衡。基于这种等效性,我们引入了 IPO-MD 算法,该算法与一般的纳什-MD 算法类似,使用混合策略(介于在线策略和参考策略之间)生成数据。我们将在线 IPO 和 IPO-MD 与现有偏好数据损失的不同在线版本(如 DPO 和 SLiC)在总结任务上进行了比较。

    01

    数据化营销:让付费转化率提升8倍的数据化运营方法

    写这篇文章的主要目的是,想说明数据挖掘在运营、营销中的巨大作用。 最近在和一家做在线转账产品的公司合作,看到该公司对数据的运营相对来说还是比较表面的,拿到数据拉一下表格,做一下横纵对比就完事了。这种做法无论是在电商公司、运营企业,还是在传统企业其实也是非常普遍的,但是也是非常容易产生误差,甚至是错误的指导作用。 特别是偶然间看到一个专注做营运培训和指导的公众号上,发表过一份关于微信公众号数据分析的文章,里面采用的也是一样将一堆数据直接作为分析样本来做横纵对比,这时候我就更加确定,如果想要做好数据分析,一定的

    011

    城市地下管廊水位监测预警解决方案

    城市地下综合管廊即在城市地下建造一个隧道空间,将电力、通信,燃气、供热、给排水等各种工程管线集于一体,设有专门的检修口、吊装口和监测系统,实施统一规划、统一设计、统一建设和管理,是新型城市市政基础设施建设现代化的重要标志之一。地下管廊汇集了城市的各种生命管线,关乎市民生活的方方面面,是城市正常运行的重要基础设施。地下综合管廊具有扩容方便,检修、维护便利等突出优点,在新建城区或具备建设条件的地区广泛采用。由于短时强降雨或过程雨量偏大而造成径流过多,在地势低洼、排水不畅等情况下,形成的积水城市自然灾害。 城市地下管廊又在地下,更容易受到降水,或者潮水倒灌的影响。有必要对地下管廊物联网进行水位的监测,通过水位监测系统及时获取地下管廊的水位数据,为科学调度资源防灾减灾提供精准的数据依据。 近年来,国内海绵试点城市,陆续修建了各类海绵设施,以缓解城市内涝情况,对积水排水的无线监测需求也日益增多。

    04
    领券