近日,Hugging Face、英伟达和约翰霍普金斯大学的研究人员联合推出了全新的ModernBERT模型。
这一新模型不仅在效率上有显著提升,还支持处理长达8192个Token的上下文,标志着编码器模型的重大进步。
BERT的前世今生
自2018年发布以来,BERT模型一直是自然语言处理领域的热门工具,广泛应用于各种任务。
然而,随着技术的进步,原版BERT模型在处理长文本和复杂任务时显得有些力不从心。为此,研究团队对BERT模型进行了全面升级,推出了ModernBERT。
BERT的全称是“Bidirectional Encoder Representations from Transformers”,翻译过来就是“基于双向Transformer的编码器表示”。这听起来有点复杂,但我们可以把它拆解开来理解。
双向(Bidirectional)
传统的语言模型通常是单向的,也就是说,它们只能从左到右(或从右到左)读取文本。例如,在句子“我喜欢吃苹果”中,单向模型只能从“我”开始,依次读取“喜欢”、“吃”、“苹果”。这种方式有一个缺点,就是它无法同时考虑到句子前后的信息。
而BERT是双向的,它可以同时从左到右和从右到左读取文本。这意味着在理解“喜欢”这个词时,BERT不仅考虑到“我”,还考虑到“吃苹果”。这种双向读取的方式使得BERT能够更好地理解句子的整体意思。
Transformer
Transformer是一种神经网络架构,它在处理序列数据(如文本)时非常高效。与传统的循环神经网络(RNN)不同,Transformer可以并行处理数据,这使得它在训练和推理时速度更快。BERT使用了Transformer架构中的编码器部分,这也是它名字中“Encoder”的由来。
表示(Representations)
在NLP中,表示(或嵌入)是指将文本转换为计算机可以理解的向量。BERT通过训练大量的文本数据,学习到如何将单词和句子转换为高维向量。这些向量包含了丰富的语义信息,使得模型能够更好地理解和处理自然语言。
ModernBERT的优势
Hugging Face 及其他团队参考了近年来业界在大语言模型(LLM)领域所取得的成果,针对 BERT 模型的架构以及训练流程实施了改进措施,并最终推出了 ModernBERT 模型。该模型旨在接替原版 BERT 模型,以适应不断发展的自然语言处理任务需求
ModernBERT支持处理长达8192个Token的上下文,比原版BERT大幅提升。这意味着它可以更好地理解和处理长文本,提高了模型的应用范围和准确性。
通过架构改进和训练过程优化,ModernBERT在多种分类测试和向量检索测试中都达到了业界领先水平。这使得它在处理复杂任务时表现更加出色。
ModernBERT提供了1.39亿参数和3.95亿参数两个版本,用户可以根据具体需求选择合适的模型。
ModernBERT的发布,标志着编码器模型的又一次飞跃。随着技术的不断进步,期待它在更多领域中展现出强大的能力。
模型地址:
领取专属 10元无门槛券
私享最新 技术干货