首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

下载量第二大模型出新了!全方位升级!

近日,Hugging Face、英伟达和约翰霍普金斯大学的研究人员联合推出了全新的ModernBERT模型。

这一新模型不仅在效率上有显著提升,还支持处理长达8192个Token的上下文,标志着编码器模型的重大进步。

BERT的前世今生

自2018年发布以来,BERT模型一直是自然语言处理领域的热门工具,广泛应用于各种任务。

然而,随着技术的进步,原版BERT模型在处理长文本和复杂任务时显得有些力不从心。为此,研究团队对BERT模型进行了全面升级,推出了ModernBERT。

BERT的全称是“Bidirectional Encoder Representations from Transformers”,翻译过来就是“基于双向Transformer的编码器表示”。这听起来有点复杂,但我们可以把它拆解开来理解。

双向(Bidirectional)

传统的语言模型通常是单向的,也就是说,它们只能从左到右(或从右到左)读取文本。例如,在句子“我喜欢吃苹果”中,单向模型只能从“我”开始,依次读取“喜欢”、“吃”、“苹果”。这种方式有一个缺点,就是它无法同时考虑到句子前后的信息。

而BERT是双向的,它可以同时从左到右和从右到左读取文本。这意味着在理解“喜欢”这个词时,BERT不仅考虑到“我”,还考虑到“吃苹果”。这种双向读取的方式使得BERT能够更好地理解句子的整体意思。

Transformer

Transformer是一种神经网络架构,它在处理序列数据(如文本)时非常高效。与传统的循环神经网络(RNN)不同,Transformer可以并行处理数据,这使得它在训练和推理时速度更快。BERT使用了Transformer架构中的编码器部分,这也是它名字中“Encoder”的由来。

表示(Representations)

在NLP中,表示(或嵌入)是指将文本转换为计算机可以理解的向量。BERT通过训练大量的文本数据,学习到如何将单词和句子转换为高维向量。这些向量包含了丰富的语义信息,使得模型能够更好地理解和处理自然语言。

ModernBERT的优势

Hugging Face 及其他团队参考了近年来业界在大语言模型(LLM)领域所取得的成果,针对 BERT 模型的架构以及训练流程实施了改进措施,并最终推出了 ModernBERT 模型。该模型旨在接替原版 BERT 模型,以适应不断发展的自然语言处理任务需求

ModernBERT支持处理长达8192个Token的上下文,比原版BERT大幅提升。这意味着它可以更好地理解和处理长文本,提高了模型的应用范围和准确性。

通过架构改进和训练过程优化,ModernBERT在多种分类测试和向量检索测试中都达到了业界领先水平。这使得它在处理复杂任务时表现更加出色。

ModernBERT提供了1.39亿参数和3.95亿参数两个版本,用户可以根据具体需求选择合适的模型。

ModernBERT的发布,标志着编码器模型的又一次飞跃。随着技术的不断进步,期待它在更多领域中展现出强大的能力。

模型地址:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvAdY-UeyObm6FkOBFQu8sow0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券