大家好,我是对白。
刚刚在Google I/O 大会上,Google发布PaLM2及超过 25 款由 PaLM 2 提供支持的新产品和功能。这意味着 PaLM 2 将最新的高级人工智能功能直接引入我们的产品和人们——包括全球消费者、开发人员和各种规模的企业。它的能力到底怎么样?让我们详细的看一看。
今天我们将介绍我们的下一代语言模型 PaLM 2。PaLM 2 是最先进的语言模型,具有改进的多语言、推理和编码功能。
尽管 PaLM 2 功能更强大,但它也比以前的型号更快、更高效——而且它有各种尺寸,这使得它易于针对各种用例进行部署。我们将提供从小到大的四种尺寸的PaLM 2:Gecko, Otter, Bison 和 Unicorn。Gecko非常轻巧,可以在移动设备上工作,并且速度足够快,即使在离线时也可以在本地进行出色的交互式应用程序。这种多功能性意味着 PaLM 2 可以进行微调,以更多方式支持整个类别的产品,从而帮助更多人。
在今天的 I/O 大会上,我们发布了超过 25 款由 PaLM 2 提供支持的新产品和功能。这意味着 PaLM 2 将最新的高级人工智能功能直接引入我们的产品和人们——包括全球消费者、开发人员和各种规模的企业。以下是一些示例:
PaLM 2 向我们展示了各种尺寸和速度的高性能模型的影响,以及多功能 AI 模型为每个人带来真正的好处。然而,正如我们今天致力于发布最有用和最负责任的人工智能工具一样,我们也在努力为 Google 创建迄今为止最好的基础模型。
PaLM 2 是我们的下一代大型语言模型,它建立在 Google 在机器学习和负责任 AI 方面的突破性研究传统之上。 它擅长在高级推理任务中,包括代码和数学、分类和问答、翻译和多语言熟练程度以及自然语言生成,比我们以前最先进的法学硕士(包括 PaLM)更好。它可以完成这些任务,因为它的构建方式 - 将计算优化缩放、改进的数据集组合和模型体系结构改进结合在一起。 PaLM 2 以 Google 负责任地构建和部署 AI 的方法为基础。它因其在研究和产品内应用中的潜在危害和偏见、能力和下游用途进行了严格评估。它被用于其他最先进的模型,例如Med-PaLM 2和秒帕尔,并为谷歌的生成式人工智能功能和工具提供支持,如巴德和PaLM API。
PaLM 2可以将复杂的任务分解为更简单的子任务,并且比以前的LLM(如PaLM)更好地理解人类语言的细微差别。例如,PaLM 2 擅长理解谜语和习语,这需要理解单词的歧义和比喻含义,而不是字面意思。
PaLM 2 在并行多语言文本和比其前身 PaLM 更大的不同语言语料库上进行了预训练。这使得 PaLM 2 在多语言任务方面表现出色。
PaLM 2 在大量网页、源代码和其他数据集上进行了预训练。这意味着它擅长流行的编程语言,如Python和JavaScript,但也能够用Prolog,Fortran和Verilog等语言生成专门的代码。将其与其语言功能相结合可以帮助团队跨语言协作。
PaLM 2 擅长高级推理、翻译和代码生成等任务:
PaLM 2 在推理基准任务(如 WinoGrande 和 BigBench-Hard)上取得了最先进的结果。它比我们以前的大型语言模型PaLM更加多语言,在XSum,WikiLingua和XLSum等基准测试上取得了更好的结果。PaLM 2还提高了葡萄牙语和中文等语言的翻译能力,超过了PaLM和Google Translate。PaLM 2 延续了我们负责任的 AI 开发和对安全的承诺。
报告里的这句话很有意思: PaLM 2 outperforms PaLM across all datasets and achieves results competitive with GPT-4.
说明还没有超越GPT-4, 后续的数据也证明了这点。
对比PaLM有很大提升:
我们独立推导出大型模型的缩放定律。我们得出了与Hoffmann等人(2022)类似的结论,即D和N应该以相等的比例增长。
PaLM 2的预训练语料库由多个来源组成:网络文档、图书、代码、数学和对话数据。与训练PaLM所用的语料库相比,PaLM 2的预训练语料库要大得多(Chowdhery等人,2022年)。PaLM 2训练集中包含的非英语数据比以前的大型语言模型更高,这对于多语言任务(例如翻译和多语言问答)非常有益,因为模型接触到了更多语言和文化。这使得模型能够学习每种语言的细微差别。
PaLM 2经过训练,显著提高了模型的上下文长度,超过了PaLM的上下文长度。这种改进对于实现长对话、长距离推理和理解、摘要和其他需要模型考虑大量上下文的任务非常关键。我们的结果表明,可以增加模型的上下文长度而不会损害其在通用基准测试中的表现,这些测试可能不需要更长的上下文。
感觉Google和OpenAI的激烈竞争还要继续持续下去。
现在的LLMs训练过程中,数据越来越重要。好数据、大数据才有好的大模型。