迄今为止,大多数大规模视觉-语言模型(LVLMs)主要在英语数据上训练,这使得它们难以理解非英语输入,并且无法生成所需的目标语言输出。现有的努力通过添加多语言训练数据来减轻这些问题,但这种做法大多是临时的,缺乏对不同语言训练混合如何影响不同语言群体的洞察。在这项工作中,作者全面调查了大规模多语言LVLM的训练策略。首先,作者进行了一系列多阶段实验,涵盖13个下游视觉-语言任务和43种语言,系统地考察了: (1)在不降低英语性能的前提下可以包含多少种训练语言; (2)预训练和指令微调的最佳语言分布; (3)指令微调数据。进一步地,(4)作者研究了如何提高多语言文本图像理解,并为此任务引入了一个新的基准。 令人惊讶的是,作者的分析揭示了一个事实: 可以(i)同时包含多达100种训练语言(ii)仅使用25%-50%的非英语数据,从而极大地提高多语言性能,同时保持强大的英语性能。 作者进一步发现,(ii)在预训练和指令微调中包含非英语OCR数据对于提高多语言文本图像理解至关重要。最后,作者将所有发现整合起来,训练了Centurio,一个100语言LVLM,在涵盖14个任务和56种语言的评估中提供了最先进的表现。
在人工智能(AI)的快速发展中,本论文旨在探讨该领域的最新进展和未来趋势。通过综合分析现有研究,本文将为读者提供一个全面的理解,包括AI技术的关键概念、应用领域以及所面临的挑战。随着研究的深入,作者将进一步阐述如何通过技术创新推动AI的发展,以及如何确保其应用的安全性和公正性。
大型视觉-语言模型(LVLMs)将大语言模型 扩展到能够原生地理解图像作为输入。这利用了最近大语言模型在语言生成和推理能力方面的惊人表现,以实现视觉-语言任务,如图像标题生成或视觉问答。
然而,大多数模型仅使用英语数据进行训练。这限制了其他语言使用者的访问权限,因为即便底层大语言模型展现出多语言能力,这些模型仍存在多个局限性:无法理解非英语指令(施奈德和西塔拉姆,2024年),难以处理图像中的非英语文本内容(唐等,2024年),并且常常无法以正确的语言回复,即它们存在语言忠诚度问题(欣克等,2024年)。为了改善这些问题,LVLMs需要使用多语言数据组合进行训练。然而,由于可用于训练的数据量总是有限的——受限于时间、计算资源、财务成本或其他约束,因此跨不同语言的有效数据分配至关重要。然而,现有的多语言LVLM研究对此关键问题——最优训练数据组合——的关注却微乎其微(例如,盖格尔等,2023a;孙等,2024a;马扎等,2024b)。
在这项研究中,作者全面调查了LVLM训练混合的语言分布空间,重点关注假设的包括语言数量与跨语言性能之间的权衡——在固定训练预算下,按可用数据量对这些语言进行分组。作者通过将高质量英语数据进行机器翻译来获取不同数据组成的多个模型,并在涵盖43种不同语言(从资源较少的伊博语到资源丰富的德语)的13个下游任务中进行基准测试。作者关注四个研究问题,每个问题都建立在先前问题的基础上,旨在确定最优的多语言训练混合:RQ1:最优的训练语言数量是多少?RQ2 & RQ3:在(RQ3)预训练数据和(RQ2)指令调整中,数据在语言间的最优分布是什么?RQ4:如何提高对图像中多语言文本的理解?为了衡量RQ4的进展,作者引入了SMPQA(合成多语言情节问答),这是一个用于测试多语言OCR能力的创新数据集,覆盖11种语言和7种书写系统。
图1:探讨多语言能力的影响因素:(1)训练数据中的语言;(2)训练数据中语言的分布;(3)整合多语言OCR样本以理解图像中的非英文文本。
作者的研究结果令人鼓舞,尽管有些出乎意料。1. 作者没有观察到臭名昭著的“多语言诅咒”(Conneau等,2020;Pfeiffer等,2022b),并发现逐渐增加语言数量只会带来微不足道的“性能税”:从7种语言扩展到100种语言,大大提升了训练数据中新加入的语言的性能,尤其是在语言忠实度方面,同时对于之前已加入的所有语言,性能水平基本保持不变。
作者发现,接触一种语言的重要性大于增加该语言的学习部分,特别是,即使大部分训练数据仍然是英语,也能降低获取其他语言训练数据的成本(例如,通过机器翻译)。具体来说,作者发现将25%至50%的训练数据转换为多语言可以带来良好的性能,有时数据量增加甚至会降低性能;在预训练阶段,拥有更多多语言数据更有益,但也超过50%后会出现饱和。在文本图像问题方面,作者得到了混合的结果:虽然将(合成的)OCR数据与每种语言5,000个样本结合可以迅速提高拉丁字母语言的性能,但对于其他语系的语言则并非如此。
最后,为了展示作者研究发现的实际影响,作者训练了Centurio,这是一个拥有100种语言的超级多语言LVLM,作者根据发现的最“优化”的语言数据分布,对训练阶段进行了调整。Centurio在14个任务上实现了最先进的结果,与Qwen2-VL(王等,2024b)、InternVL 2.5(陈等,2024d)和Pangea(岳等,2024a)等流行的多语言开放权重LVLM在英语和其他高资源语言上的性能相当,但在低(较)资源语言上超越了它们。
训练(多语言)LVLMs的设计空间十分广阔,涵盖了从选择图像编码器、图像编码器与LLM之间的对齐模块,到选择训练数据等方面。(Karamcheti等人,2024年;Laurencon等人,2024a;Tong等人,2024年)。对所有选择的笛卡尔积进行穷举搜索是不切实际的。在本研究中,作者重点评估了在预训练和指令调整阶段训练数据的语言分布。直观来看,这应该是影响LVLM多语言能力的主要因素。图1展示了作者分析的范围。作者在保持数据量不变的同时,不断将语言群组从资源最丰富到最稀缺,按照(Joshi等人,2020年)的“资源度”等级添加到训练组合中。除了语言数量,作者主要关注在英语和其他所有语言之间分配训练预算。最后,作者认为,除了在多种语言中理解指令和生成输出之外,真正多语言能力的LVLM还必须能够“理解”图像中的多语言文本。因此,作者特别关注针对多语言文本图像问题的训练适应性。
架构。在作者的实验中,作者采用了流行的LLaVA架构(刘等,2023b,a):一个图像编码器(SigLIP S0400/384(Zhai等,2023))将图像编码成一系列视觉 Token ,这些 Token 通过一个两层的MLP映射到LLM嵌入空间;然后这些 Token 与文本 Token 拼接,并输入到LLM中。作者选择Phi 3.5(Abdin等,2024b)作为作者的LLM,因为它展现出强大的多语言性能,同时其小巧的尺寸(3.8B参数)使得实验计算更加高效。为了证明作者的发现对其他LLM也适用,作者使用Llama 3(8B)(Llama团队,2024)作为LLM Backbone ,重复进行了一部分分析实验(参见附录D.1)。
训练设置。在借鉴先前的研究成果(Liu等,2023a;Tong等,2024)的基础上,作者将训练过程分为两个阶段:1)预训练:模型仅使用密集图像字幕进行图像字幕生成训练;2)指令微调:模型在多种视觉-语言任务混合训练中使用多个公开数据集。尽管预训练有助于提升下游任务的表现,但对于LVLM在下游任务上良好表现并非严格必需(Karamcheti等,2024)。为了降低分析的计算成本(即避免将每个语言分布与预训练数据耦合,并与指令微调数据的每个语言分布耦合),作者在寻找指令微调的最优语言分布时跳过预训练。然后,在指令微调数据固定的情况下,作者寻找预训练数据的最佳语言分布。在这两个阶段中,作者冻结图像编码器,仅更新MLP和LLM(使用LoRA(Hu等,2022))的权重。更详细的说明见附录A。
训练数据。作者的控制实验需要在广泛的语言范围内具有可比性的数据。现有的多语言数据集,仅适用于某些任务,且仅限于少数几种语言,因此无法满足作者的需求。因此,作者转而使用机器翻译(MT),并采用开源的NLLB模型(Costa-jussa等人,2022)来翻译易于获取的英文数据集。尽管机器翻译会导致数据质量下降,尤其是在资源较少的语言中,但它是获取大规模多语言视觉-语言训练数据的唯一选择。此外,从“低质量”的机器翻译数据中获得的好处,可以保证通过更高质量的翻译(例如,商业机器翻译或人工翻译)达到或超过。作者的指令调整数据来自LLaVA-Next(刘等人,2024),包含0.77百万个样本。在预训练阶段,作者使用了来自ShareGPT4v(陈等人,2024b)的1.3百万个密集描述。更多细节请见附录B。
评估。作者构建了一个包含13项任务、涵盖43种语言的广泛测试集,以评估作者模型的跨语言能力。参照Joshi等人(2020)的研究,作者将测试的语言分为五个层次,其中T5包括资源丰富的语言(例如,德语、中文)和T1包括极度资源匮乏的语言(例如,毛利语、泰卢固语)。作者测试集中的任务分为两类:
(1)判别性任务,其中的问题需要二选一(“是/否”)或多项选择答案;
(2)开放式生成任务,其中模型需要以目标语言生成输出(例如,图像标题或自由形式答案)。生成任务还评估了模型的语言忠实度,即生成符合指令语言答案的能力。
首先,作者研究了实际需要训练的语言数量:是否如Shaham等人(2024a)、Chen等人(2024c)、Kew等人(2023)等所建议的那样,仅需在少数资源丰富的语言上进行训练,并通过(零样本)跨语言迁移到未见过的语言就足够了,还是作者需要明确包含每种目标语言?相反,使用更多语言是否会损害每种语言的性能,因为现在分配给每种语言的训练数据比例更小了?设置。作者专注于指令微调步骤:将50%的数据保留在英语中,而将剩余的50%平均分配给N种其他语言,即每种语言获得50/N%的数据预算。作者逐步增加N的值,从最高资源层(T5)开始,然后逐步包括较低资源层语言(T4到T1),每次只包括一种。这导致了以下设置:T5(N=6)、T5-T4(N=24)、T5-T3(N=52)、T5-T2(N=69)以及最终的L100(N=99)。在L100中,除了T5-T2的语言外,还包括T1语言。评分是对按语言层分组的所有任务的结果进行平均。以下任务的表现受语言准确性影响:XM3600、MaXM、MTVQA。
表1:使用不同语言集训练的模型对RQ1(第2.2节)的结果。作者强调了每列中的最佳和次佳结果。
(b)在XM3600上的平均语言保真度,用于覆盖XM3600(Thapliyal等,2022年),其余部分随机分配以达到99种语言。
结果。表1总结了研究结果。不出所料,作者发现将一种语言(层级)纳入指令微调可以提升它们的性能(表1a,上半部分)。然而,添加新语言对先前已包含语言性能的负面影响几乎可以忽略不计,即便有影响也是微乎其微。这使得在仅带来任何给定语言轻微性能损失的情况下,大规模多语言LVLMs的训练成为可能。在语言内训练导致语言忠实度(即模型以正确语言生成输出)的显著提升,如表1b所示。有趣的是,训练越多元语言,对于训练中未包含的语言,忠实度的提升也越显著;预期之中,明确的语言内训练进一步提高了任何给定语言的忠实度(详见附录中的表27,详细展示了每种语言的性能结果)。即使排除那些语言忠实度起作用的任务(表1a下半部分),作者观察到的趋势也是一致的:语言内训练带来的持续改进,对于其他语言几乎没有(如果有的话)性能下降。附录表13中部分实验使用Llama 3(设置:英语、T5和L100)证实了与Phi 3.5观察到的趋势:实际上,当使用更多语言进行训练时,作者在所有任务上都看到了更大的提升。
表2:在不同英语与多语言数据比例下,在指令调整阶段训练的模型对于RQ2($2.3)的结果。分数为按语言层次分组的所有任务结果平均值。
RQ1实验表明,大规模多语言指令调整数据在各个方面都具有益处。作者现在分析应该有多少训练数据是多语言的。一方面,直观上,增加训练数据预算中的非英语部分可能会带来进一步的提升。另一方面,随着多语言训练数据的增加,在某些时候,这些收益可能会因为作者在牺牲干净(英语)数据的情况下添加了噪声(机器翻译获得)数据而抵消。
实验设置。在本实验中,作者选择了100种语言的完整集合,因为这些语言的跨语言性能非常稳健。然而,作者调整了语言分布,将数据预算的保留为英语,并将剩余的平均分配给其他99种语言。作者考虑了以下六个设置:。
实验结果。作者在表2中展示了实验结果。作者观察到,当训练数据中英语数据占比在到之间时,所有语言层的性能都达到峰值。对于某些任务(例如XM3600、MaXM、BINMC),随着英语数据的增加,作者观察到性能有所下降,而对于其他任务(例如MTVQA、xGQA、MaRVL),更多的多语言数据导致性能略有下降(详见F.1中的每个任务结果)。总的来说,低资源语言从更多的多语言数据中受益,而高资源语言则从更多的英语数据中受益。然而,这在一定程度上也是由于任务的语言覆盖范围:XM3600和BINMC从更广泛的多语言训练组合中获益。
表3:RQ3(S2.4)的结果,展示了不同英译多语言比例()的预训练效果。所有变体在同时进行指令微调(,5O% E n.)时保持一致,它们是涵盖最多低资源语言的任务。
使用Llama 3 Backbone 网络(参见附录中的表14)得到的结果呈现出相同模式:作者观察到在T1和T2阶段,当时,性能最佳;而在T5和英语中,当和时,整体表现最佳,考虑了所有层级。作者的发现与Yue等人(2024a)的同期研究成果相一致,他们发现20%至80%的英语数据能够实现良好的全局性能。根据这些结果,作者选择作为训练的稳健值。
根据刘等人(2023b,2024)的暗示和 Tong 等人(2024)的明确展示,在图像-描述对上进行预训练能够提升 LVLM 的性能。因此,作者在确定有效的指令微调数据分布之后,接下来探讨了不同语言预训练数据分布的影响。具体来说,作者测试了平衡英语和多语言部分是否比不平衡分布(即分别将更多的训练预算分配给英语或多语言混合)带来更好的性能。
实验设置。在这些实验中,作者将指令调整混合比固定为,其中英语数据占比为50%,这在上一节中被发现能产生最平衡的整体结果。对于预训练数据混合比,作者选择了相同的100种语言,并调整英语图像标题对的占比,取值为;与指令调整类似,非英语数据预算在其余99种语言中均等分配。
结果表3中的分数显示,虽然仅针对英语的预训练在英语任务上带来了下游效益,但它对其他语言的影响微乎其微。多语言混合显著提升了几乎所有语言层的性能,其中对T2和T1中资源最少的语言提升最为显著。与指令调整相比,即使是非常少量的清洁英语数据也不会导致性能明显下降,但通常也不会提升多语言性能。因此,作者选择作为后续实验的“最佳”选择。在Llama 3上的实验,使用了1%和100%的英语数据(参见附录中的表15),支持了这一发现:高度多语言预训练对多语言下游性能有益。
最后,作者关注模型对图像中文本的多语言理解能力,以及如何提升这种能力。与基于自然图像的任务不同,图像中文字的任务不能简单地从英语翻译过来:即使 Prompt 和输出文本被翻译,图像中的文字仍然使用英语。因此,作者测试了合成多语言OCR数据如何帮助提升性能,这些数据可以在任何数量和语言下大规模生成。
评估。为此,作者引入了SMPQA(合成多语言情节问答)这一新的多语言评估数据集,该数据集聚焦于文本图像任务所需的两个基本技能:1)从图像中读取(并输出)文本;2)将输入文本(作为 Prompt 的一部分给出)与图像中的相应文本进行关联(通过平衡的“是/否”问题,例如,“带有标签$Label的酒吧是否是最大的?”)。作者将在附录C.5.7中提供构建和示例的更多细节。SMPQA的构建旨在覆盖(i)5种拉丁字母表语言,每种语言来自不同层级,以及(ii)6种具有不同非拉丁字母表的主要语言。
设置。作者采用Synthdog方法(Kim等人,2022年)生成多语言合成文本-图像数据以进行训练(详细信息见B.3)。作者再次采用训练设置,其中50%的数据为英语,既用于预训练也用于微调,现在在预训练中增加了500k个Synthdog样本,在指令微调混合中增加了50k个实例的子集。与之前一样,作者选择的英语样本,其余预算均匀分配到其他99种语言上。作者测试了一个额外的拉丁语下分布:作者将分配给32种非拉丁语脚本语言的预算翻倍。表4:使用额外合成OCR数据在SMPQA上训练的模型的RQ4(s2.5)结果,针对英语、拉丁语脚本语言和其他脚本语言。无预训练:来自表2;无OCR:来自表3;冻结:图像编码器冻结; Eng.:OCR数据中为英语,其余均匀分布在L100语言上;拉丁语下:所有拉丁语脚本语言各有2.5k个样本,其他语言各有10k个样本。
在这些实验中,作者将拉丁字母语言的训练预算(除英语外)削减了一半。重要的是,作者解冻了图像编码器,并对其参数进行了微调。
结果。表4总结了实验结果。之前实验中的模型,即“无预训练”和“无OCR”的模型,在英语和其他拉丁字母文字语言上表现良好,但在非拉丁字母文字上则完全失败,表现接近随机。作者注意到,经过预训练步骤的模型(不包含额外的OCR数据)已经比仅通过指令调整训练的模型表现更好;这很可能是因为模型中包含有文本和说明文字的图片,这些说明文字明确提到了文本内容。使用合成数据进行训练极大地提高了所有语言的性能,即使所有OCR数据都是英语(100%英)。尽管如此,使用多语言合成OCR数据非常有效,并且重要的是,即使英语只占训练数据的1%,也不会降低英语SMPQA的性能。作者注意到,解冻图像编码器并进行训练对于所有脚本的最优性能至关重要。尽管如此,作者仍然观察到拉丁字母文字和非拉丁字母文字之间存在较大的性能差距,即使作者将训练预算偏向非拉丁字母文字(拉丁字母文字下降)。作者推测,对于其他脚本,需要数量级更多的文本在图像上的训练数据才能达到足够的性能。
作者的对RQ1-RQ4的回答(见§)指向了训练支持100种语言的巨大多语言LVLMs的可行性,其中英语数据的“甜点”约为50%,被翻译成所覆盖的语言。为了提高多语言OCR能力,使用未冻结的图像编码器在大规模合成数据上的训练已被证明是有效的。为了证明作者研究结果的实用性,作者现在训练了最先进的多语言LVLMs,应用作者所学的经验,作者称之为Centurio。以下作者将简要描述进一步的设计选择。
文本编码器。大语言模型(LLM)的选择对多语言性能有重大影响。作者按照第2节中描述的评估设置,对7-9B参数的多个LLM进行了基准测试,以评估针对100种语言和50%的英语指令数据的翻译候选者(详细信息见附录D.3)。最佳性能由Aya-Expanse(Dang等,2024)和Qwen 2.5(Yang等,2024)作为 Backbone 模型实现。
图像拼接与投影。图像拼接方法(Lin等,2024;Liu等,2024)通过连接输入图像中个非重叠图块的编码来提高图像分辨率,这对于识别图像中的小文本有很大帮助。然而,这也极大地增加了输入长度:在作者的模型中,一个的拼接将导致每张图像有3,645个token。相反,作者采用了Shi等(2024)提出的方法,该方法在通过MLP进行投影之前,将整个图像和图块的token在特征维度上拼接起来。这为计算成本——token数量保持不变——和细粒度内容性能提升之间提供了一个有效的折中方案。
训练数据。为了进一步提升性能,作者增加了预训练和指令微调的数据量。在预训练阶段,作者将O.7M ALLaVA字幕(Chen等,2024a)添加到ShareGPT-4V字幕中,并使用在§中生成的所有合成OCR数据(总计1.16M:500k英语,5k拉丁字母语言,10k其他语系)。在指令微调方面,作者引入了Cambrian集合(Tong等,2024)中的额外数据集,以及几个仅包含文本的指令微调数据集(详细列表见附录B.2)。作者将数据翻译到英语设置,排除了文本量大的数据集和其他对机器翻译存在问题的数据集。
表5:Centurio与13种其他LVLM在14个任务上的比较。作者突出了最佳和次佳结果。分数代表准确率(XM3600的CIDEr)。en & mul分别为英语和平均多语言结果。XM3600 fid.表示所有语言的保真度;SMPQA G. & N代表基础和命名。*:仅支持单图输入。AVG.:所有任务的平均值。设置和模型的详细信息请参阅附录C。
表6:Centurio与表5中排名前三的模型的比较。分数是按语言层级对所有14个任务的平均结果。
作者对比了作者的Centurio模型与13种其他多语言LVLMs在中使用的13个任务上的表现,并在上进行了评估,测试了模型在56种语言上的能力。所有模型的详细信息见附录C.6。
在多语言部分,Centurio在14个任务中平均取得了最佳结果,并在英语方面表现突出(见表5)。这些结果证明了作者训练组合的有效性:作者能够在保持高英语表现的同时,最大化模型的跨语言能力。当按语言层级分组分析这些结果(见表6)时,作者发现作者的模型在资源匮乏的层级T1和T2上表现优异,对于资源更丰富的语言也取得了具有竞争力的成绩——即使在排除多图像任务(VGR、MaRVL、VLOD)的情况下,作者的模型也显著优于大多数其他模型。
仅在文本密集型任务(主要是MTVQA和SMPQA)中,Centurio的表现落后。虽然作者展示了多语言OCR训练的重要性——Centurio在SMPQA阅读任务中比Pangea等工具在更多语言上表现出色——但与Qwen2-VL和其他工具相比,有限的输入分辨率和较少的OCR数据量导致其性能相对较差。
基于单语种LVLMs如BLIP-2 和LLaVA 的成功,研究行人将英语训练协议扩展到包括多语言数据,以获得大规模多语言LVLMs。因此,谷歌的PaLI模型(Chen等人,2022,2023)是第一个在多语言字幕和VQA数据上训练的闭式权重模型,随后采用相似训练策略的开放式权重PaliGemma(Beyer等人,2024)紧随其后。Geigle等人(2023a)推出了mBLIP,这是第一个使用图像字幕和翻译成98种语言的有限指令数据集进行训练的开放式模型。后续模型同样遵循既定程序,直接翻译英语训练数据的一部分(Maaz等人,2024b;Hu等人,2024;Alam等人,2024)。对于并行的Pangea,Yue等人(2024a)针对多元文化进行了优化,并使用了机器翻译数据、现有多语言数据和合成数据的混合。虽然他们分析了英语和多语言数据之间的比例,但他们没有改变语言数量,将其固定在39种。有趣的是,大多数研究行人要么(i)没有合理地解释他们的多语言数据混合,要么(ii)没有提供关于训练数据组成的任何详细信息(例如,Wang等人,2024b;Yao等人,2024;Chen等人,2024d)。
多语言OCR与LVLMs。尽管OCR最近因英语LVLMs而受到关注,但在先前的工作中,多语言OCR却鲜有涉及。作为例外,Qwen2-VL(Wang等,2024b)和InternVL 2.5(Chen等,2024d)展现了出色的多语言OCR能力,但其训练细节尚不明确。为了促进对提升多语言OCR的开放知识,Yue等(2024a)利用10种语言的数据进行了初步实验。然而,这些努力仍然受到评估资源的缺乏所阻碍:MTVQA(Tang等,2024)和M3Exam(Zhang等,2023a)仅覆盖至9种语言,并将文本输入的语言理解与图像上的文本理解混淆。在本研究中,作者通过提出专门用于多语言OCR评估的SMPQA数据集,推动了多语言OCR研究。作者进一步探讨了合成训练数据如何提升模型的能力。
多语言LLMs的指令微调。虽然早期的LLMs在多语言任务上存在困难(Ahuja等人,2024年),但近期的一些模型,如Qwen 2.5(Yang等人,2024年)、Llama 3(Llama团队,2024年)、Gemma 2(Gemma团队,2024年)或Aya(Aryabumi等人,2024年)在这方面有了显著提升,使其在除了英语以外的许多语言中也可用。然而,当前的LLMs若 Prompt 语言不是英语,往往无法忠实回应,特别是在低资源语言方面。为了减轻这一问题,一些研究分析了多语言指令微调的重要性。Weber等人(2024年)证明了即使在基础模型已在多语言数据混合上进行预训练的情况下,多语言训练对下游性能也是至关重要的。其他研究显示,仅使用一小部分语言就能显著提高多语言下游任务中的跨语言迁移。然而,它们主要关注的是资源丰富的语言,而作者则从视觉-语言语境出发,考虑更广泛的语言选择问题。
在(Soykan和Sahin,2024)的研究中,作者们提出了一种以“语言信息驱动”方式选择最优语言组合进行指令调整的方法。然而,他们发现并没有一个通用的最佳选择,相反,需要根据任务和模型的具体情况进行选择。因此,在作者的工作中,作者没有采用这些技术,而是根据Joshi等人(2020)提出的分类法来选择语言。
在本文中,作者对人工智能在各个领域的应用进行了全面探讨。通过对大量数据的分析,作者揭示了人工智能技术在提升效率、优化决策和推动创新方面的巨大潜力。然而,作者也认识到人工智能的发展和应用面临着诸多挑战,包括数据安全、算法偏见以及伦理问题等。
未来,作者需要进一步加强对人工智能技术的监管,确保其在各个领域的健康发展。同时,作者还应关注人工智能技术对就业市场的影响,采取措施降低其负面影响,并努力实现人工智能技术的普惠。总之,人工智能技术的发展前景广阔,但作者必须在前进的道路上保持警惕,确保其造福人类,而非成为威胁。
在本研究中,作者通过四个逐步精细的分析方案,系统地研究了训练多语言LVLM的最佳数据构成。作者的研究结果表明,采用100种语言的广泛多语言训练非常有效,其效果与使用较少语言配置的效果相当。此外,仅需25%-50%的训练数据为非英语,这有助于降低多语言数据生产的成本。
为了提升图像中的多语言文本理解,作者引入了一种新的评估基准,并证明了在训练组合中包含多语言合成OCR数据的重要性和有效性。最后,作者将作者的发现应用于训练Centurio,即使用100种语言训练的广泛多语言LVLM,并在包含14项任务和56种语言任务的评估套件中,相较于13种其他LVLM实现了最先进的成果。
[1]. Centurio : On Drivers of Multilingual Ability of Large Vision-Language Model .