Facebook AI近日发布一个名为XLM-R的新模型,使用100种语言、2.5 TB文本数据进行训练,在四项跨语言理解基准测试中取得了迄今最好的结果。
作者 | 李梅 编辑 | 陈彩娴 机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。 在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。 比如汉语方言之一闽南话,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无
【新智元导读】今天,IEEE Spectrum发布了最新的第五届年度编程语言交互排行榜!Python不但雄踞第一,在综合指数、用户增速、就业优势和开源语言单项中,全部霸占榜首。人生苦短,你还不用Python吗?
Meta 创建了一个能够翻译 200 种不同语言的人工智能模型,包括许多目前商业工具不支持的语言。Meta 正在开源该项目,希望其他人能够在其工作的基础上进行开发。
随着互联网技术不断的发展,前端的新技术也开始日新月异,旧的技术已经不能满足工作的需要,根据业务需求来将重构也是常有的事情,为了减少工作量,快速提高工作效率,这些新出现的技术也起着不可替代的作用。后端的有些架构已经稳定,作为一名前端面对这些花样百出的技术,只有不断的去学习研究,才能不落后于时代潮流。 一:TypeScript TypeScript : http://www.typescriptlang.org/ 官方介绍:TypeScript是一种由微软开发的自由和开源的编程语言。它是JavaScript的一
语言模型 (LM) 通常用于自然语言文献中,以将概率分配给标记序列。LM 最近在用编程语言编写的源代码建模方面表现出出色的性能。这些模型特别擅长代码完成和从自然语言描述生成代码等工作。对于基于 AI 的编程支持,当前最先进的代码大语言模型已显示出巨大的改进。其中最大的模型之一 Codex 已被实现为 IDE 内的开发人员助手,可根据用户的上下文在真实世界的生产工具 GitHub Copilot 中自动编写代码。
就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。
---- 新智元报道 编辑:LRS 【新智元导读】为了科学界的未来,加入开源LLM阵营吧! 免费的ChatGPT用的是很爽,但这种闭源的语言模型最大的缺点就是不开源,外界根本无法了解背后的训练数据以及是否会泄露用户隐私等问题,也引发了后续工业界、学术界联合开源了LLaMA等一系列羊驼模型。 最近Nature世界观栏目刊登了一篇文章,纽约大学政治与数据科学教授Arthur Spirling呼吁大家更多地使用开源模型,实验结果可复现,也符合学术伦理。 重点是,万一哪天OpenAI不爽了,关闭了语言模型
国外作者Jeff Hale浏览了一些求职网站,想找出哪些技能是数据科学家最需要掌握的技能,并对普通数据科学技能以及特定的语言和工具的特殊技能分别做了一些研究。
本文对东北大学朱靖波、肖桐所带领的小牛翻译团队完成,被AAAI-20录用的论文《Neural Machine Translation with Joint Representation》进行视频解读。
选自IEEE Spectrum 作者:Stephen Cass 机器之心编译 参与:蒋思源、李亚洲 今天,IEEE Spectrum 发布了第四届顶级编程语言交互排行榜。因为有各种不同语言的排行,所以
IEEE Spectrum 发布的编程语言交互式排行榜能让读者自己选择参数组合时的权重,从而个性化定义自己关注的排行。IEEE Spectrum 的排行榜根据读者的需求进行的权重设定,如注重新兴的语言、职工需求的语言、开源中热门的语言等。读者在设定时也可以根据产业部门进行过滤,从而定义自己的排行榜。
为了将 NLP 应用尽快部署到更多语言,Facebook 的研究者拓展并改进了其 LASER(Language-Agnostic SEntence Representations)工具箱。今天,他们开源了第一个可探索大量多语言句子表征形式的工具——LASER,将其与 NLP 社区分享。据称,该工具现在能应用于涉及 28 种不同字符系统的 90 多种语言中。LASER 将所有语言共同嵌入到一个共享空间中(而不是为每种语言建立一个单独的模型),从而实现这样的结果。一起开源的还包括涵盖 100 多种语言的多语言测试集。
什么是WebAssemblely WebAssembly是一种运行在现代网络浏览器中的新型代码并且提供新的性能特性和效果。它设计的目的不是为了手写代码而是为诸如C、C++和Rust等低级源语言提供一个高效的编译目标。 对于网络平台而言,这具有巨大的意义——这为客户端app提供了一种在网络平台以接近本地速度的方式运行多种语言编写的代码的方式;在这之前,客户端app是不可能做到的。 目标 快速,高效,可移植--通过利用通用的硬件功能,可以在不同的平台上以接近原生代码执行的速度执行WebAssembly代码。
机器之心报道 编辑:杜伟 CMU 对现有开源和未开源的 AI 代码生成模型进行了全面深入的系统性评估,并分析了它们在 C、C++、Python 等 12 中不同编程语言中的代码自动完成表现。 最近,语言模型(Language Model, LM)在建模编程语言源代码方面展现出了令人印象深刻的性能。这些模型擅长代码自动生成以及从自然语言描述中生成代码等下游任务。当前 SOTA 大规模语言代码模型(如 Austin et al. (2021))在基于 AI 的编程辅助领域已经取得了重大进展。此外,OpenAI
早期受制于浏览器以及技术、兼容性等问题,导致网页的显示效果非常的单一,几乎都是静态页,前端的工作也是非常简单,说是前端,其实只是一个模板工程师,编写页面模板,然后让后端负责渲染。所以在互联网早期,前端工程师这个职位可以说是不存在,通常由后端或者是美工来兼任。
Perplexity CEO Aravind Srinivas 是谷歌创始人Larry Page的忠实粉丝。但是他认为自己找到了一种方法,不仅能与谷歌搜索竞争,还能与OpenAI的通用预训练transformer(GPT)竞争。
来源:机器之心本文约2400字,建议阅读5分钟CMU 对现有开源和未开源的 AI 代码生成模型进行了全面深入的系统性评估,并分析了它们在 C、C++、Python 等 12 中不同编程语言中的代码自动完成表现。 最近,语言模型(Language Model, LM)在建模编程语言源代码方面展现出了令人印象深刻的性能。这些模型擅长代码自动生成以及从自然语言描述中生成代码等下游任务。当前 SOTA 大规模语言代码模型(如 Austin et al. (2021))在基于 AI 的编程辅助领域已经取得了重大进展。
为了更加全面的探究大语言模型的代码能力,该工作提出了一个涵盖40种编程语言的大规模多语言多任务代码评测基准(McEval),包含了16000个测试样本。评测结果表明开源模型与GPT-4相比,在多语言的编程能力上仍然存在较大差距,绝大多数开源模型甚至无法超越GPT-3.5。此外测试也表明开源模型中如Codestral,DeepSeek-Coder, CodeQwen以及一些衍生模型也展现出优异的多语言能力。该基准的提出对推动多语言代码评测具有重要意义。
市场上对数据科学家的要求特别多:需要掌握机器学习、计算机科学、统计学、数学、数据可视化,深度学习等知识。要想全部掌握这些方面的知识,科学家需要学习数十种语言、框架和技术。那么,为此数据科学家应该如何合理地分配时间,该掌握哪些技能呢?
Vue.js是一个渐进式JavaScript框架,用于构建用户界面。而TypeScript是一种由微软开发的开源语言,它是JavaScript的一个超集,可以编译成纯JavaScript。Vue与TypeScript的结合使得开发大型应用变得更加容易和高效。本文将详细探讨Vue.js组件中TypeScript的应用,特别是它的生命周期钩子函数,并通过丰富的示例,为你提供一个实战指南。
安卓操作系统的软件开发语言是Java,而在过去几年中,有关Java的版权,谷歌(微博)和甲骨文之间发生了长期的诉讼。最新外媒消息称,谷歌正在考虑将苹果开发的Swift作为未来安卓软件开发的“一级”语言
随着人工智能技术的不断发展,GPU在AI开发中的重要性也日益凸显。作为一种特殊的处理器,GPU可以同时处理多个数据流,大幅度提高计算速度。而腾讯云服务器提供的GPU产品,则为用户提供了弹性、高效的计算服务。
想使用之前写的代码库但忧虑编程语言过时,想重写又嫌麻烦,怎么办?源到源编译器似乎是不错的选择。
你好,我是 Guide!这里是 JavaGuide 的「优质开源项目推荐」第 3 期,每一期我都会精选 5 个高质量的 Java 开源项目推荐给大家。
上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!
随着人工智能技术的飞速发展,各种应用场景需求对计算资源的需求也越来越高。而 GPU 作为一种高效并行计算的硬件加速器,成为了人工智能计算的关键设备之一。本文将从使用 GPU 的 AI 技术场景应用与开发实践、如何有效地利用 GPU 进行加速、为什么有 CPU 还需要 GPU、GPU 为什么快等多个方面,逐步深入探讨 GPU 开发实践的相关知识点。
机器之心发布 字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校 字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。 基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通
Rust 是一种快速、高并发、安全且具有授权性的编程语言,最初由 Graydon Hoare 于2006 年创造和发布。现在它是一种开源语言,主要由 Mozilla 团队和许多开源社区成员共同维护和开发。它的目标是 C 和 C++占主导地位的系统编程领域。
本报告介绍了由 JetBrains 进行的第四次年度开发商生态系统调查的合并结果。到 2020 年初,他们对 19696 名开发人员进行了调查,这些反馈帮助 JetBrains 确定了有关工具,技术,编程语言以及开发世界许多其他令人兴奋方面的最新趋势。
作者 | 刘媛媛 来源 | 数据实战派 文本生成是 NLP 中最重要且颇具挑战性的任务之一。近年来,预训练语言模型 (Pretrained Language Models ,下文简称 “PLM”) 的范式,极大地推动了该领域的发展。例如,我们曾介绍过 AI 在古诗生成上的突破《清华团队最新成果:可致特朗普能咏比特币,AI 写古诗 “更上一层楼”》。 最近,一项由中国人民大学团队完成的预印本论文 Pretrained Language Models for Text Generation: A Survey,
10年来, 开发者已经分享, 修补, 并建立在 GitHub 来自世界各地。在我们进入下一个十年之前, 我们已经收集了一些我们最喜欢的时刻和里程碑--只是一些开发者推动软件前进的方法。 ---- 2008年 ---- 04月10日 GitHub 正式启动 在2008年4月, GitHub 的私人测试结束, GitHub 正式推出了一个简单的目的: 连接开发人员, 使他们更容易与 Git 一起工作。 ---- 03月03日 Rails 移动到 Git 和 GitHub 当 GitHub 平台仍处于专用 bet
LLVM是一套提供编译器基础设施的开源项目,是用 C++ 编写,包含一系列模块化的编译器组件和工具链,用来开发编译器前端和后端。它是为了任意一种编程语言而写成的程序,利用虚拟技术创造出编译时期、链接时期、执行时期以及“闲置时期”的优化。
论文名称:Cross-Lingual Machine Reading Comprehension
随着GPT-4和Stable Diffusion等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的多模态生成能力可以大致分为两类:
🐯 猫头虎博主来啦!今天我们要深入探讨Go语言在开源世界的重要性和其与社区的紧密联系。这篇博客将探索Go作为一个开源项目的成功要素,以及它是如何在社区中形成包容、协作的文化。搜索词条:Go语言,开源,社区合作。
简单来说,机器翻译就是把一种语言翻译成另外一种语言,在这里,我用的例子都是从中文翻译成英文。上面的句子用Source标记,即源语言,下面用Target标记,即目标语言,机器翻译任务就是把源语言的句子翻译成目标语言的句子。
最近,一个名为CopyTranslator的外语辅助阅读和翻译软件引发了不小的关注。
数据科学家需要涉猎很多——机器学习、计算机科学、统计学、数学、数据可视化、通信和深度学习。这些领域中有几十种语言、框架和技术可供数据科学家学习。那么要想成为雇主需要的数据科学家,他们应该如何安排学习内容呢?
每个项目都有其规范和需求,在构建应用程序时,最重要的是选择正确的技术对其进行编码。 在本文中,我们将研究Python和Node.js,以了解它们的优点、缺点和用例,以便你能确定哪一个最适合你的项目。
Python,读作['paɪθɑn],翻译成汉语是蟒蛇的意思,Python 的 logo 也是两条缠绕在一 起的蟒蛇的样子,然而 Python 语言和蟒蛇实际上并没有一毛钱关系。Python 命名自 他的开发者所喜欢的一个马戏团。
在ActualStand关于开发者对编程语言的满意度的报告里面显示:Python的用户满意度占据领先地位,GO和JavaScript跳跃性增长,而Java却有略微的下降。
作者:Hany Hassan Awadalla 机器之心编译 参与:Nurhachu Null、路 近日微软发布博客,提出一种半监督通用神经机器翻译方法,解决低资源语言机器翻译的问题,帮助解决方言和口语机器翻译难题。该研究相关论文已被 NAACL 2018 接收。 机器翻译已经成为促进全球交流的重要组成部分。数百万人使用在线翻译系统和移动应用进行跨越语言障碍的交流。在近几年深度学习的浪潮中,机器翻译取得了快速进步。 微软研究院近期实现了机器翻译的历史性里程碑——新闻文章中英翻译达到人类水平。这一当前最优
摘要:本文研究了在机器翻译(MT)任务中增强大型语言模型(LLM)翻译能力的策略。本文提出了一种新颖的范式,包括三个阶段:使用大量单语数据进行二次预训练,使用跨行文本格式文档进行持续预训练,以及利用源语言一致性指导进行监督微调。以往对 LLM 的研究主要集中在各种监督微调(SFT)策略上,但其效果有限。传统的机器翻译方法依赖于大量的平行双语数据,而我们的范例则强调了使用较小的高质量双语数据集的重要性。我们认为,重点应放在预训练过程中增强 LLM 的跨语言对齐能力,而不是在 SFT 过程中仅仅依赖大量双语数据。使用 Llama2 模型进行的实验结果,尤其是单语增强后的中文-Llama2,证明了 LLMs 翻译能力的提高。我们的方法的重大贡献在于第二阶段:该阶段只需不到 1B 的训练数据,因此我们的方法非常高效。此外,在第三阶段,我们观察到设置与源语言一致的指令有利于监督微调过程。实验结果表明,我们的方法超越了之前的工作,与 NLLB-54B 和 GPT3.5-text-davinci-003 等模型相比,尽管参数数量只有 7B 或 13B,但却取得了卓越的性能。这一成就确立了我们的方法在机器翻译领域的先驱地位。
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。
导读:机器翻译,能够实现多种语言之间的自动翻译,方便人类的沟通和交流,具有重要的研究和应用价值。Transformer是机器翻译领域的一个经典模型,一经问世,便取得了SOTA效果。本文将带领大家一同探秘Transformer,并送上基于飞桨实现 Transformer的实战教程。
2012年,微软推出了一个能够在Node.js上运行的开源语言——TypeScript。作为JavaScript的超集,TypeScript在兼容JavaScript的同时,额外添加了可选的静态类型和基于类的面向对象编程,并且可用于大规模JavaScript应用的开发。TypeScript一经推出便受到了广泛关注,也逐渐被很多用户所接受。微软公司也听取广大用户的反馈,不断更新TypeScript。近日,微软再次更新TypeScript,推出了1.6版本。该版本添加了对React/JSX、类表达式以及很多新功
普遍的观点认为,前端就是打好 HTML、CSS、JS 三大基础,深刻理解语义化标签,了解 N 种不同的布局方式,掌握语言的语法、特性、内置 API。再学习一些主流的前端框架,使用社区成熟的脚手架,即可快速搭建一个前端项目。胜任前端工作非常容易。再往深处学习,你会发现前端这个领域,总是有学不完的框架、工具、库,不断有新的轮子出现。技术推陈出新,版本快速迭代,但万变不离其宗。工具致力于流程自动化、规范化,服务于简洁、优雅、高效的编码,将问题高度抽象化、层次化。在如今前端开源界如此火热的现状下,框架的使用者与框架的维护者联系更加紧密,不仅能深入源码来更彻底地认识框架,还能够提出问题,参与讨论,贡献代码,共同解决技术问题,推进前端生态的发展和壮大。而编译原理,作为一门基础理论学科,除了 JS 语言本身的编译器之外,更成为 Babel、ESLint、Stylus、Flow、Pug、YAML、Vue、React、Marked 等开源前端框架的理论基石之一。了解编译原理能够对所接触的框架有更充分的认识。
我们这里讲的自动翻译指的是机器翻译,虽然机器翻译未必准确,但在它可以帮助我们快速实现原型,这在项目初期确实能很大地提升开发效率。
前几天,Facebook发了一个百种语言互译的模型M2M-100,这边谷歌着急了,翻译可是我的老本行啊。
领取专属 10元无门槛券
手把手带您无忧上云