首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

    机器之心发布 字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校 字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。 基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通

    01

    每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式

    摘要:本文研究了在机器翻译(MT)任务中增强大型语言模型(LLM)翻译能力的策略。本文提出了一种新颖的范式,包括三个阶段:使用大量单语数据进行二次预训练,使用跨行文本格式文档进行持续预训练,以及利用源语言一致性指导进行监督微调。以往对 LLM 的研究主要集中在各种监督微调(SFT)策略上,但其效果有限。传统的机器翻译方法依赖于大量的平行双语数据,而我们的范例则强调了使用较小的高质量双语数据集的重要性。我们认为,重点应放在预训练过程中增强 LLM 的跨语言对齐能力,而不是在 SFT 过程中仅仅依赖大量双语数据。使用 Llama2 模型进行的实验结果,尤其是单语增强后的中文-Llama2,证明了 LLMs 翻译能力的提高。我们的方法的重大贡献在于第二阶段:该阶段只需不到 1B 的训练数据,因此我们的方法非常高效。此外,在第三阶段,我们观察到设置与源语言一致的指令有利于监督微调过程。实验结果表明,我们的方法超越了之前的工作,与 NLLB-54B 和 GPT3.5-text-davinci-003 等模型相比,尽管参数数量只有 7B 或 13B,但却取得了卓越的性能。这一成就确立了我们的方法在机器翻译领域的先驱地位。

    01

    前端工程师为什么要学习编译原理?

    普遍的观点认为,前端就是打好 HTML、CSS、JS 三大基础,深刻理解语义化标签,了解 N 种不同的布局方式,掌握语言的语法、特性、内置 API。再学习一些主流的前端框架,使用社区成熟的脚手架,即可快速搭建一个前端项目。胜任前端工作非常容易。再往深处学习,你会发现前端这个领域,总是有学不完的框架、工具、库,不断有新的轮子出现。技术推陈出新,版本快速迭代,但万变不离其宗。工具致力于流程自动化、规范化,服务于简洁、优雅、高效的编码,将问题高度抽象化、层次化。在如今前端开源界如此火热的现状下,框架的使用者与框架的维护者联系更加紧密,不仅能深入源码来更彻底地认识框架,还能够提出问题,参与讨论,贡献代码,共同解决技术问题,推进前端生态的发展和壮大。而编译原理,作为一门基础理论学科,除了 JS 语言本身的编译器之外,更成为 Babel、ESLint、Stylus、Flow、Pug、YAML、Vue、React、Marked 等开源前端框架的理论基石之一。了解编译原理能够对所接触的框架有更充分的认识。

    03
    领券