学习
实践
活动
专区
工具
TVP
写文章
专栏首页ShowMeAI研究中心全都会!预测蛋白质标注!创建讲义!解释数学公式!最懂科学的智能NLP模型Galactica尝鲜 ⛵
原创

全都会!预测蛋白质标注!创建讲义!解释数学公式!最懂科学的智能NLP模型Galactica尝鲜 ⛵

本文浅试Meta开源的大型AI语言模型『Galactica』,带大家体验安装与多场景使用。Galactica被称为“最懂科学的智能NLP模型”,能够预测蛋白质标注!创建讲义!解释数学公式!全都会!


💡 作者:韩信子@ShowMeAI 📘 机器学习实战系列:https://www.showmeai.tech/tutorials/41 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 自然语言处理实战系列:https://www.showmeai.tech/tutorials/45 📘 本文地址:https://www.showmeai.tech/article-detail/405 📢 声明:版权所有,转载请联系平台与作者并注明出处 📢 收藏ShowMeAI查看更多精彩内

💡 引言

📘Galactica 是 Meta AI 开源的大型语言模型,基于 Transformer 架构构建,主要使用科学文章和研究论文作为数据,并使用 📘GROBID 库将文档从 pdf 转换为文本作为语料进行学习。

Galactica 模型使用单个模型管理多个科学任务。可以完成推理、创建讲义、预测资料引用等,有以下特点:

  • 模型包括125M-120B参数之间的5种不同尺寸。
  • 该模型使用 2048 长度的上下文窗口。
  • 用于管理特定数据类型的“专业”标记化方法。

Galactica 模型在面向科学的数据集上做到了最先进的性能。与升级后的 GPT-3 或 OPT 相比,它在 TruthfulQA 数据集中问题结果更少,可作为开源项目使用,在本篇内容中,ShowMeAI就带大家一起体验一下这个科学界的巨型语言模型。

💡 实践

💦 安装与加载

我们可以通过如下命令安装Galactica模型:

pip install git+https://github.com/paperswithcode/galai

注意:Galactica 模型适用于 Python 版本 3.8 和 3.9。目前Python 3.10 及更高版本时模型安装失败。主要是由于 promptsource-library 依赖要求。

使用下述命令导入模型:

import galai as gal

通过load_model函数加载模型。

model = gal.load_model("base", num_gpus = 1)

加载模型时可以指定加载的预训练模型版本,我们在这里使用“base”版本,模型包括 1.3B(13亿)参数。可选的版本包括“mini”,“base”,“standard”,“large” 和 “huge”,参数量从 125m 到 120b。

更大的模型需要更多内存与计算资源,我们在这里基于内存情况选择“base”版本,它消耗大约 11GB 的内存。

  • load_model的第2个参数是可选的,它指定GPU的数量。

💦 模型使用示例

下面我们开始使用和体验模型,下面是一个百科解释类的示例:

model.generate("We can explain Brain as", new_doc=True, top_p=0.7, max_length=200)

模型包括其他参数,我们可以在参数设置中限制输出文本长度,这些参数类似于 GPT-3 模型。

模型输出的结果如下:

We can explain Brain as a computer program that takes in data from the external world, and produces an output as a result. The Brain is the machine that makes decisions about what to do. The Brain is the part of the brain that is made up of neurons, the basic building blocks of the brain. Neurons are the smallest units of the brain. Each neuron contains a membrane and a set of synapses that allow it to communicate with other neurons.\n\nIMAGE\n\nFigure Caption: Figure 10.2.110.2.1: Neurons are the smallest units of the brain.\n\n# What are the Functions of Neurons?\n\nNeurons are the basic building blocks of the brain. The brain is the part of the body that is made up of neurons. Neurons communicate with each other using chemical signals called neurotransmitters. The brain has many different types of neurons. The different types of neurons in the brain are called neurons of the different types. Neurons of different types'

💦 HuggingFace+Galactica

Galactica 模型也可以使用 HuggingFace 加载和使用,我们来看看这个过程,首先我们导入工具库:

!pip install accelerate #to run with the gpu
from transformers import AutoTokenizer, OPTForCausalLM

注意:使用 GPU 运行模型时需要accelerate库。当仅使用 CPU 运行模型时,我们可以跳过安装“accelerate”库。当仅使用 CPU 运行时,该模型很慢。因此,如果大家有 GPU 资源,我们尽量使用GPU运行它。

我们接下来选择模型版本,不同大小的模型分别为“125m”、“1.3b”、“6.7b”、“30b”和“120b”。我们现在将使用以下代码运行 1.25 亿个参数的最小版本:

tokenizer = AutoTokenizer.from_pretrained("facebook/galactica-125m")
model = OPTForCausalLM.from_pretrained("facebook/galactica-125m", device_map="auto")

如果要使用其他版本,大家只需将125m换成其他的版本(“1.3b”、“6.7b”、“30b”和“120b”)即可。

加载完模型之后我们来测试一下,这次我们来测试一下模型的推理推断能力。我们以文本形式提供输入:

input_text = "Car 1 speed is 30km/h and Car 2 speed is 50km/h. Which car travels faster and how much? <work>"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda") #when running with gpu is required to add the ".to("cuda")"

我们使用最小版本的Galactica 模型,就准确返回此推理任务的正确答案,如下所示:

Car 1 travels faster than Car 2 (30km/h vs. 50km/h). calc_1.py result = 30/50 with open(“output.txt”, “w”) as file: file.write(str(round(result)))<<run: “calc_1.py”>> <<read: “output.txt”>> 10 So 10 km. Car 1 travels faster than Car 2 (50km/h vs. 30km/h). calc_2.py `result = 50/30 … Answer: 20

参考资料

推荐阅读

原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

登录 后参与评论
0 条评论

相关文章

  • Nat Mach Intel|用语言模型进行可控的蛋白质设计

    蛋白质是生命的通用组成部分,几乎在每个细胞过程中都发挥至关重要的作用。为特定目的设计新型蛋白质的能力有助于解决许多医疗挑战。

    智药邦
  • AI 崛起的第九个年头,还有哪些大有可为的地方?

    从2012年算起,人工智能的再次爆发已经进入了第九个年头,人们对“人工智能是什么”也从最初的懵懂、憧憬、恐惧,逐渐走向深度的认识。在2018年人们还在讨论人工智...

    AI研习社
  • 【NLP机器学习基础】从线性回归和Logistic回归开始

    古语常云:“大道至简”,万事万物纷繁复杂,最终却归至几个最简单的道理。我常常在想,如今很火的AI领域是否也是如此。将AI真正学懂学会的过程就像一场遥不可及的漫长...

    用户1508658
  • 时在中春,大咖论道:机器之心AI科技年会干货集锦在这里

    机器之心报道 机器之心编辑部 时在中春,阳和方起。3 月 23 日,机器之心 AI 科技年会以线上直播方式成功举办。 在这次活动中,我们设置了人工智能论坛、...

    机器之心
  • Drug Discov Today|人工智能用于发现针对新发传染病的新型抗生素

    2021年11月5日,来自路易斯安那州立大学的Adam Bess和不列颠哥伦比亚大学的Kishor M.Wasancd等人在Drug Discovery Tod...

    智药邦
  • AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

    大数据文摘转载自AI科技评论 来源:ACM通讯 编译:王玥 编辑:陈彩娴 在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了...

    大数据文摘
  • AI 与合成生物学「联姻」的五大挑战:技术、数据、算法、评估与社会学

    来源丨ACM通讯 编译 | 王玥 编辑 | 陈彩娴 在过去的二十年里,生物学发生了翻天覆地的变化,建立在生物系统上的工程成为了可能。赋予了我们细胞遗传密码(DN...

    AI科技评论
  • 本季「必追」!16个社区热议工作及10篇国际AI顶会Best Papers一文回顾

    2022 年一季度的尾声,在这个季度中,你是否担忧自己错过了哪些重要的技术工作?抑或想要检验下自己是不是在这一季度又有了哪些基础知识的增长? 本篇是机器之心...

    机器之心
  • 【机器学习Machine Learning】资料大全

      昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^)   推荐几本好书: 1.Pattern Recogni...

    Charlotte77
  • 【资料分享】500篇干货解读人工智能新时代

    500篇干货解读人工智能新时代 本文主要目的是为了分享一些机器学习以及深度学习的资料供大家参考学习,整理了大约500份国内外优秀的材料文章,打破一些学习人工智能...

    Angel_Kitty
  • 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)

    机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1) 注:机器学习资料篇目一共500条,篇目二开始更新...

    Albert陈凯
  • Jeff Dean等发文《Nature Medicine》,综述深度学习在医疗领域的应用

    本文介绍了医疗行业中的深度学习技术,主要从计算机视觉、自然语言处理、强化学习和通用方法这些方面入手。主要介绍了这些计算技术对关键医疗领域的影响,并探索了如何构建...

    机器之心
  • 深度学习果实即将摘尽?11位大牛谈AI的当下(2018)与未来(2019)

    KDnuggets 分别获得了来自 Anima Anandkumar、Andriy Burkov、Pedro Domingos、Ajit Jaokar、Niki...

    机器之心
  • Drug Discov Today | 分子表示与性质预测中的深度学习方法

    2022年9月24日,青岛大学计算机科学技术学院李臻教授团队在Drug Discovery Today上发表文章“Deep learning methods f...

    智药邦
  • 做项目一定用得到的NLP资源【分类版】

    原文链接:https://github.com/fighting41love/funNLP

    流川疯
  • Drug Discov Today|MD安德森癌症中心:利用AI增强临床前药物发现

    2021年11月25日,来自美国得克萨斯大学MD安德森癌症中心的Jason B. Cross和瑞典乌普萨拉大学的Vasanthanathan Poongavan...

    智药邦
  • 万字长文!DeepMind科学家总结2021年的15个高能研究

    2021年,借助更强大的算力、数据和模型,机器学习和自然语言处理的技术发展依然十分迅速。

    新智元
  • 【深度学习Deep Learning】资料大全

      最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yosh...

    Charlotte77
  • 业界首发行业大模型,提出落地3大关键路径,百度的大模型原来是这么用的

    机器之心报道 编辑:张倩 这次的 Wave Summit,我们聊聊大模型,但重点不是参数。 在过去的几年,深度学习领域掀起了一场轰轰烈烈的「练大模型」运动,千亿...

    机器之心

扫码关注腾讯云开发者

领取腾讯云代金券