首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌利用大数据提高通用翻译

摘自:InfoWorld技术观察 大数据文摘翻译:孙强 校对:陈洁 [转载请保留] 谷歌翻译(Google Translate)是目前翻译网页或简短的文字片段使用最多的一个快捷工具。...据德国媒体Der Spiegel报道,支持该服务的后台核心技术,会在不久的将来被改进为类似“星际迷航(Star Trek)”那样的通用翻译器。 当然,谷歌并不是唯一一家致力于此事的公司。...机器翻译的存在由来已久,但一直远远落后于人工翻译。 很多机器翻译软件的开发问题,是如何对不同语言的语法以及词汇进行定义,而这些都不容易解决。...举个例子,通过并行处理大量的可利用的翻译资料,英法语之间的翻译就比旧的通过算法驱动的翻译方法好很多。平行处理的可利用的文本资料库越大,翻译效果就越好。...所有这一切都给翻译资料提供了海量数据宝库。 而如今最大的尚未解决的问题是:谷歌,Facebook,微软,以及其他公司能否在使用实时会话生成语言翻译资料库的同时做到匿名化?

923110
您找到你想要的搜索结果了吗?
是的
没有找到

翻译模型:小数据处理

1.背景 最近在研究翻译模型中,小数据的问题,看了几篇有代表性的文章,因此分享一下。众所周知,一个成功的翻译模型,需要大量的语料,让模型能够有效学习到两个语种之间的内在联系。...但针对小数据翻译模型,除了数据过少导致模型不能够提取重要特征之外,还使得模型在效果降低,不能成熟应用到工业界中。...前人的这个小数据的问题,包括了以下几种方法: 迁移学习 对偶学习 Meta-Learning(元学习) 多任务学习 下文,分别介绍几种方法中的代表性论文。 2....之后在训练X和Y的翻译模型。...论文主要的方法为:首先利用高资源的数据,训练一个parent model,然后利用这个parent模型,初始化约束训练低资源的数据

51140

百度翻译 API 的申请 与 百度通用翻译 API 的接入

百度翻译 API 的申请 与 百度通用翻译 API 的接入 申请 进入百度翻译开放平台,选择 立刻使用。 图片 选择我的服务,开通 通用翻译,填信息后秒过。 图片 建议 实名认证,提高免费额度。...图片 设置翻译引擎为百度翻译。 输入应用程序 ID 和 密钥。 图片用 Java 的代码方式接入 百度通用翻译 API API 的信息建议看官方文档,更全面。...百度通用翻译 API 接入文档 主要查找到 API url、输入参数、输出参数。...import java.nio.charset.StandardCharsets; import java.util.HashMap; import java.util.Map; /** * 百度通用翻译...工具类 * * 接入 百度翻译 API * */ public class BaiduTranslationUtils { /** * 对接 百度通用翻译 API(https

3K20

业界 | 微软提出新型通用神经机器翻译方法,挑战低资源语言翻译问题

作者:Hany Hassan Awadalla 机器之心编译 参与:Nurhachu Null、路 近日微软发布博客,提出一种半监督通用神经机器翻译方法,解决低资源语言机器翻译的问题,帮助解决方言和口语机器翻译难题...微软使用半监督通用神经机器翻译的方法解决了平行数据不足的挑战,对于极低资源的语言而言,这种方法仅仅需要数千个平行语句就可以实现高质量的机器翻译系统。...该系统架构对神经机器翻译(NMT)的编码器-解码器框架新增了两个修改,以实现半监督通用神经机器翻译。主要修改了编码器部分,如图 2 所示。 1....图 5: 针对翻译任务调整相似度得分。 当我们朝着通用嵌入表征的目标前进时,编码器具备语言敏感模块是至关重要的,这将有助于对不同的语言结构进行建模。...此外,我们证明了该方法在同样的数据上、zero-shot 设置中,通过调整预训练多语言系统达到了接近 20 的 BLEU 值。

1.1K60

浅析大规模多语种通用神经机器翻译方法

作者|陈贺轩 编辑 | 唐里 目前,神经机器翻译(NMT)已经成为在学术界和工业界最先进的机器翻译方法。最初的这种基于编码器-解码器架构的机器翻译系统都针对单个语言对进行翻译。...尽管目前最流行的Transformer模型已经大大推动了机器翻译在单个语言对上性能的提升,但针对多语言的机器翻译模型的研究源于其特殊的需求,如多语言之间互译的模型参数量、翻译服务部署困难等。...实验采用了内部数据。该数据包括102种语言对,由于语言对之间是相互的,可以将它们与英语进行“镜像”转换,每个语言对最多有100万个示例。...这样一来,总共可以翻译103种语言,并同时训练204种翻译方向。...实验结果 表1就是从10种语言翻译与英语的一对多、多对一和多对多实验结果。 其中上表表示了从10种语言翻译到英语的翻译结果,下表表示了从英语到10种语言的翻译结果。 ?

85110

文档智能理解:通用文档预训练模型与数据

此类模型可经过微调之后,用于支持分类、序列标记、结构预测和序列生成等各项技术,并构建文摘、机器翻译、图片检索、视频注释等应用。 为什么我们要做预训练模型?...首先,预训练模型是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,它隐式地学习到了通用的语法语义知识。...所谓解码就是根据一个句子的输入得到一个预想的结果,比如机器翻译(输入源语言句子,输出目标语言句子),或者阅读理解(输入文档和问题,输出答案)。...为了解决这一问题,我们提出了一种通用文档预训练模型 LayoutLM,对文档结构信息(Document Layout Information)和视觉信息(Visual Information)进行建模,...将视觉信息与文档结构融入到通用预训练方案 建模上述信息需要寻找这些信息的有效表示方式。然而现实中的文档格式丰富多样,除了格式明确的电子文档外,还有大量扫描式报表和票据等图片式文档。

1.6K30

谷歌开源首个「方言」数据:让机器翻译更地道

---- 新智元报道   编辑:LRS 【新智元导读】数据包含葡萄牙语和汉语普通话。...最近谷歌发布了一个全新的,可用于Few-shot Region-aware机器翻译的数据和评估基准FRMT,主要解决方言翻译问题,论文发表在TACL(Transactions of the Association...数据收集 FRMT 数据包括部分英文维基百科文章,来源于 Wiki40b 数据,这些文章已经由付费的专业翻译人员翻译成不同的地区性的葡萄牙语和汉语。...为了突出关键区域感知的翻译难题,研究人员使用了三个内容桶(content buckets)来设计数据: 1....系统性能 为了验证为 FRMT 数据收集的翻译能够捕获特定区域的现象,研究人员对数据质量进行了人工评估。

78520

翻译)LearnVSXNow!-#6 创建我们第一个工具-序幕

为了创建创建“容易编写和理解”的代码,从本文开始,我们开始创建一个工具示例Package。我计划用至少如下三个主题来讨论: 序幕:创建示例package的第一部分,它是这个工具的基础。...写这个系列的目的,并不是为了实现这个工具的功能,而是为了熟悉创建类似应用的步骤。...通过创建这个简单的工具,可以使我们更熟悉package的开发,这要比直接讲解VS SDK中的interop程序和MPF类更容易理解。...向导生成的Guids.cs文件包含了一个用于标识package的GUID和一个用于标识命令(command set)的GUID: 1: using System; 2: namespace MyCompany.StartupToolset...总结 这这一篇中,我们开始创建一个工具来熟悉VSPackage的开发。作为这个系列的第一部分,我们创建了一个空的package,并手动添加了一个菜单命令。

48420

首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据

基于文本的翻译系统已经取得了非常大的进步,从最早的查词匹配、语法规则,再到神经翻译系统、Transformer预训练等,翻译结果越来越精准,支持的互译语言数量也超过了200种。...最近,Meta AI和加州大学伯克利联合发布了一个大规模的多语言、多模态机器翻译系统SeamlessM4T,只用一个模型实现支持100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译和自动语音识别...研究人员选择ECAPA-TDNN开源架构作为基线模型,在VoxLingua107数据上重新训练30个epoch后,分类错误率为5.25%;相比之下,开源版模型VL107 HF的错误率为7% 在模型复现验证完毕后...在100种SeamlessM4T语言以及79种VoxLingua107语言的实验中,可以看到,对额外语言的训练会略微降低通用语言的整体性能,可以是因为引入了更多相似语言,比如祖鲁语(zul)经常与尼亚雅语...级联方法对比 在SeamlessM4T和Whisper支持的语言上,研究人员对比了Whisper ASR模型和NLLB T2TT模型的组合。

62820

谷歌发布20亿参数通用模型,100多种语言自动识别翻译

---- 新智元报道   编辑:编辑部 【新智元导读】近日,谷歌正式发布了支持100多个语种的20亿参数通用语音模型——USM,正式对标OpenAI的开源Whisper。...目前,支持自动检测和翻译的语种包括,主流的英语、汉语,以及阿萨姆语这类的小语种。 最重要的是,还能用于谷歌在去年IO大会展示的未来AR眼镜的实时翻译。...同年,Meta也发布了一个名为「No Language Left Behind」模型,并称可以翻译200多种语言,旨在打造「通用翻译器」。 而最新模型的发布,谷歌将其描述为通向目标的「关键一步」。...微调自监督学习 据论文介绍,USM的训练采用了三种数据库:未配对的音频数据、未配对的文本数据、配对的ASR语料库。...未配对的音频数据 包括YT-NTL-U(超1200万小时YouTube无标签音频数据)和Pub-U(超429,000小时的51种语言的演讲内容) 未配对的文本数据 Web-NTL(超1140种不同语言的

43830
领券