首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | BCT: 偏见增强一致性训练缓解CoT中的偏见问题

摘要:虽然CoT有可能提高语言模型推理的可解释性,但它可能会系统性地误导影响模型行为的因素--例如,根据用户的意见合理化答案,而不提及这种偏见。为了缓解这种有偏差的推理问题,我们引入了偏差增强一致性训练(BCT),这是一种无监督的微调方案,可训练模型在有偏差特征和无偏差特征的提示中给出一致的推理。我们构建了一套模型,在七项答题任务中测试九种形式的偏差推理,结果发现,将 BCT 应用于带有一种偏差的 GPT-3.5-Turbo 中,可将保持不变任务中的偏差推理率降低 86%。此外,该模型还能推广到其他形式的偏差,在保持不变的偏差上平均减少 37% 的偏差推理。由于 BCT 可以泛化到已排除的偏差,而且不需要金标签,因此这种方法有望减少来自未知偏差的偏差推理,以及在无法监督基本真相推理的任务中的偏差推理。

01
领券