前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于大模型的一些基础内容

关于大模型的一些基础内容

作者头像
音视频开发进阶
发布2024-02-29 12:31:09
2570
发布2024-02-29 12:31:09
举报

跟上时代发展,作为 IT 人员都有必要了解大模型的一些基础知识。

从质疑 AI 到理解 AI,到最后使用并超越 AI 。

大模型定义:

大模型指的是 大语言模型(英文:Large Language Model,缩写LLM), 大语言模型(LLM)是基于大量数据进行预训练的超大型深度学习模型。

这里面有两个关键描述,大量数据预训练 和 超大型深度学习模型,两方面都在体现着 “大” 的特性。

大模型对数据量的要求很高,通常会包含数十亿甚至数千亿个参数,模型大小可以达到数百GB甚至更大。

比如2020年5月的GPT-3,参数量达到了1750亿,预训练的数据量就达到 45TB 。

参数多,数据量大,模型深度也复杂,自然对算力要求很高,没有个千把张英伟达的 H100 就无从谈起训练自己的大模型,而一张 H100 的价格将近 4 万刀,约合28万元人民币。

有业内人士透露:“一般一台服务器上需要装配8张显卡”,按最高成交价28万元来算,一台服务器整机价格接近200多万元。

这么一看,吾等普通程序员的人力成本还是挺便宜,难怪英伟达的股价能一直涨涨涨。

目前有哪些大模型:

自从 OpenAI 的 GPT 3.5 大模型问世以来,国内外各大公司都发布了自己的大模型,真是五花八门,百花齐放!!!

比如谷歌的 Gemini、Meta 的 Llama 2、百度的文心大模型、腾讯的混元大模型、科大讯飞的星火大模型等等。

有不少大模型都开源的,可以在 https://huggingface.co/models 网站上可以下载对应的大模型。

大模型如此之多,如何衡量哪家大模型更强?在衡量大模型的能力时会提到一个参数 7B、2B、13B 等,这里的 B 就是可以量化的一个单位。

大模型参数的5B、7B是指模型中可训练参数的数量。这里的“B”表示10亿(Billion),即10^9。因此,5B表示50亿个可训练参数,7B表示70亿个可训练参数。这些参数是神经网络中的权重和偏置,它们在训练过程中通过反向传播算法进行更新,以使模型能够更好地拟合训练数据。

网上有一些对大模型进行打分的评比,贴了一个截止2023年10月的大模型评测得分:

快要过去半年了,大模型天梯榜早已更新,就在前几天谷歌又发布了全球最强开源大模型 Gemma,7B 性能超越 Meta 的 Llama 2 13B!

照这个速度卷下去,大模型都要变成大白菜了,数据量太少的模型都不能上榜的。

大模型的移动端部署

目前大模型都还是部署在服务器上,移动端应用通过网络请求来调用相关的服务。

这是因为大模型不仅是参数量大,对计算资源和内存空间的要求也很大,移动端的算力还不能满足现有的模型部署。

还有一种方法对当前的模型进行裁剪,减少计算量和内存需求。在 Github 上有个开源项目就是尝试在 Android 手机上部署大模型并运行,参考这里:

https://github.com/Tao-begd/mlc-llm-android

或许在将来,移动端甚至嵌入式设备的算力进一步提升,都可以在本地跑大模型,那时候智能硬件才算是有点智能了吧。(是不是可以提起买入高通的股票,等着高通芯片支持大模型运算)

大型语言模型有哪些应用?

大模型有很多实际应用。具体有哪些,这个问题就让 ChatGPT 自己回答吧 ~ !

  • 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

  • 知识库回答

该技术通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

  • 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

  • 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其他几种编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。

  • 文本生成

与代码生成类似,文本生成可以完成不完整的语句,编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

大模型的技术实现:

啥 ?????

这道题超纲了,看了好多文章也没搞懂大模型具体怎么实现的,超出理解范围,溜了溜了~~~~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 音视频开发进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大模型定义:
  • 目前有哪些大模型:
  • 大模型的移动端部署
  • 大型语言模型有哪些应用?
  • 大模型的技术实现:
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档