首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2023年开源语言模型一览

本文整理了一些影响力最大的开源语言模型。 译自 Large Language Models: Open Source LLMs in 2023,作者 Kimberley Mok。...尽管这种基于生成式 AI 的工具具有充足的利润潜力,但更广泛的 AI 社区中的许多小企业和独立研究人员仍对采用封闭源 LLM 持谨慎态度,这不仅是因为其操作成本和巨大的计算要求,还有其他问题,如数据所有权...7 月,Meta 推出了 LLaMA 2 的后续版本,该公司称它比原始版本训练了 40% 更多的数据,还有其他像 LLaMA 2-Chat 等微调版本,该版本已针对类人的对话进行了优化,以及 LLaMA...Pythia 非营利实验室 EleutherAI 于今年 4 月发布了 Pythia,这是一套使用公开数据训练的不同大小的 LLM 套件。...专有模型目前可能仍略占优势,但开源模型正在迅速赶上,一些开源LLM的表现已经超过了其更大参数的对应模型,这表明训练数据的质量可能比规模更重要。

44010
您找到你想要的搜索结果了吗?
是的
没有找到

数据仓库术语一览

数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。...数据集市:数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。...数据清洗:对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。 数据采集:数据仓库系统中后端处理的一部分。...数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据数据转换:解释业务数据并修改其内容,使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。...完成的功能包括多角度实时查询、简单的数据分析,并辅之于各种图形展示分析结果。 数据挖掘:在数据仓库的数据中发现新信息的过程被称为数据挖掘,这些新信息不会从操作系统中获得。

1.5K70

数据技术生态全景一览

数据技术生态全景一览数据平台ETL数据接入 大数据有很多的产品,琳琅满目。从架构图上就能看出产品很多。...首先我们看数据源,数据有结构化数据,存在关系型数据库里的数据,它以二维表的形式进行存储;还有一些非结构化、半结构化数据,比如日志 json属于半结构化数据,图片视频音频属于非结构化数据。...扛住压力以后,实时产生的数据一定是要先经过大数据平台的处理,处理完以后再把结果存到大数据存储平台。这样才能发挥实时数据的一个价值。...它们可以监控,数据库里的结构化数据,当数据一旦发生变化,它们就会监控到变动的数据,并将数据抽到Kafka或其它消息队列中。再交给大数据平台进行一个处理。 它们为什么能够进行实时的一个监控?...我们一般会选择把数据存到数据库里,hbase就是一个分布式的nosql数据库。它是基于hdfs建立的,虽然数据最终它也是存在hdfs中,但是它上层搭建了一个数据库,这个数据库用起来易用性会更好。

37440

国产数据库名录一览

碰巧看到eygle写的一篇文章《国产数据库名录和产品信息一览》,我才知道竟然有这么多的国产数据库产品,大开眼界,很多都没听说过,我猜可能是专供某个专业领域的,如下这张表,可以了解下,有需要的时候,可以参考...用友 154 阿里云TSDB 时序数据库 阿里云计算有限公司 155 百度云TSDB 时序数据库 百度 156 符木数据库 分布式数据库 山东符木数据科技有限公司 157 海东青数据库 物联网数据库...HSAP 实时分析数据库 北京九章云极科技有限公司 165 昆仑数据库 分布式关系型数据库 泽拓科技 166 羚羊数据库 分布式数据库 广州图灵科技有限公司 167 思极有容数据库 分布式事务性数据库...国网信通产业集团&万里开源公司 168 天河大数据并行数据库T1 大数据并行数据库 南威软件股份有限公司 169 虚谷数据库 分布式关系型数据库 虚谷伟业 170 云树·Shard 分布式数据库 上海爱可生信息技术股份有限公司.../ 185 TensorBase 开源实时大数据仓库 北京致尽微科技有限公司 186 Tera 分布式 NoSQL 数据库 百度 187 TerarkDB 键值存储数据库 字节跳动 188 TiKV

3.8K10

数据安全大额罚单一览

近来各国数据保护机构陆续对数据保护不力的公司开出罚单,其中大额罚单尤为值得关注。从处罚金额上看,已经不再是无关痛痒的小数,而是动辄关系到企业生死存亡的天文数字。...现列出迄今为止的大额罚单,供数据保护参考: 添加罚单原因(请点击图片后查看大图): 目前最高罚单金额50亿美元,折合人民币约344亿元。 如此天价罚单,有几家可以承受?...数据安全是如此的重要,我们又该如何做好数据安全呢? 数据安全是一项系统化工程,实在无法使用三言两语加以概括。因此,笔者写了一本书《数据安全架构设计与实战》,系统化地介绍数据安全的架构设计与治理实践。...第三部分:数据安全与隐私保护治理实践,包括设定战略、构建组织、建立数据安全政策,以及围绕战略而采取的项目管理、围绕组织执行的运营管理、围绕政策采取的合规与风险管理等管理实践,此外还介绍了差分隐私等隐私保护增强技术等内容

39210

一览美图数据开发与SQL解析

感谢阅读「美图数据技术团队」的第 16 篇原创文章,关注我们持续获取美图最新数据技术动态。 2008 年成立至今美图打造了数款 App 产品,而随之带来的是扑面而来的用户数据与其相关的业务需求。...业务配置版 业务爆发,统计业务多样性,由业务研发人员自助配置统计需求 数据分析表 数据分析需求爆发,数据分析师自助取数分析 任务依赖升级 任务复制的依赖关系,接入调度系统 通过一系列的改版迭代,在数据开发过程中减少沟通成本...SourcePlugin 连接数据源,执行抽取数据,Udf 对抽取的数据进一步加工,进行聚合等。...TargetPlugin 连接数目标数据源,把抽取的数据写入指定目标库(如执行 Mysql Insert 写入数据)。最后完成 Workflow 执行,记录完成信息。 ?...业务方可以进行如下配置: 数据来源 对接数据之后,数据将会分类并映射为 hive 表,比如美拍有服务端接口日志 meipai 表; 分组维度 根据数据接入时候定义字段,如美拍日志中的 client_id

1.1K20

数据数据类型整理一览 (oracle + mysql)

数据库系列数据类型整理 一、Oracle 数据库 (11g) 1.1 oracle 数据库的基础数据类型 1.2 字符型 1.3 数值型 1.4 日期型 1.5 其他类型 二、MySQL数据库 (5.5...) 2.1 整形 2.2 浮点型 2.3 日期和时间型 2.4 字符类型 2.5 mysql 数据库常用类型总结 学到哪里整理到哪里 一、Oracle 数据库 (11g) 1.1 oracle 数据库的基础数据类型...字符型 数值型 日期型 其他类型 (存储对象数据类型) 1.2 字符型 比如我们要存储学校中学生的姓名,性别,家庭住址等等一些文字性表述的内尔用可以使用 字符类型来存储 格式 功能 char(n)...定长存储数据,不足位时,会自动补全, 最大长度为 2000 nchar(n) 使用 Unicode 格式存储数据,所以我们的中文就可以使用该格式存储数据 ,最大长度为 1000 varchar2(n)...,存储二进制数据 CLOB 可以存放 4GB 字节数据,以字符串存放 二、MySQL数据库 (5.5) 2.1 整形 2.2 浮点型 2.3 日期和时间型 2.4 字符类型 2.5 mysql

92410

可折叠设备、平板设备和屏设备更新一览

可以观看 可折叠设备,平板电脑和大屏幕更新一览 了解更多详情。 可折叠的屏幕也为大型设备提供了更好的人机工程学效果。折叠后,您可以把原本和平板电脑一般的屏幕放进口袋里,这是以往的便携设备无法做到的。...为什么要支持屏设备 △ 可折叠设备的用法有很多,这里只是其中一部分 在过去的一年里,设备制造商们发布了大批令人兴奋的全新可折叠设备和平板设备。...Android 应用也可以在 Chrome OS 上运行,而 Chrome OS 现在是世界第二桌面操作系统。 为屏设备做好准备 更大的屏幕正在改变用户与设备互动的方式。...△ 由于可折叠和屏设备的窗口尺寸是可变的,使用自适应布局比根据屏幕尺寸分割体验效果更好 多任务处理 在屏设备上,用户会默认期待应用支持分屏 (或多窗口模式) 和拖放等互动模式。...这些变更通过提供恰到好处的默认尺寸,让您的应用在屏设备上看起来更棒。您可以在 Material Design 设计指南 中找到更多关于组件尺寸限制的信息。

2K20

干货|常用大数据术语一览

对比分析-它确保采用逐步的比较和计算过程,以便发现非常数据集里面的模式。 复杂的结构化数据-由两个或多个复杂的关联部分组成的数据,它们不容易被结构化查询语言和工具来解析。...数据库管理系统(DBMS)-收集和存储数据,并提供数据访问。 数据中心-放置用来存储数据的服务器的实际场地。 数据清洗-审查和修订数据的过程,以便删除重复数据、纠正错误,并提供一致性。...数据市场-进行数据集买卖的在线环境。 数据挖掘-从数据集中找到某些模式或信息的过程。 数据建模-使用数据建模技术来分析数据对象,从数据获得洞察力。 数据集-数据集合。...提取、转换和加载(ETL)-这是数据库和数据仓库的一种方法,从各个数据源提取数据,转换数据,以适合业务运营要求,最后加载到数据库。...U 非结构化数据-非结构化数据被认为是含有大量普通文本的数据,但也可能包含日期、数字和事实。 V 价值-所有的可用数据将为企业、社会和消费者创造巨大价值。大数据意味着商机,各行各业将从大数据获益。

81370

28篇论文、6 主题带你一览 CVPR 2020 研究趋势

编译 | 陈鑫 编辑 | 丛 末 首度于线上召开的CVPR 2020 会议已经落下帷幕。...但是,训练它们所需的计算资源比用于检测和识别的传统CNN的数量级。例如,GAN需要比图像识别模型多10到500倍的计算量。...被提出的对抗潜在自动编码器(ALAE)通过使用对抗性策略学习输出数据分布来保留GAN的生成特性,而AE架构则从数据中学习潜在分布以改善分离特性(即 StyleGAN的W中间潜在空间)。...为此,本文提出了一种大规模、多任务的训练方案,该模型采用单一模型对来自以下四类任务的12个数据集进行了训练:视觉问题回答、基于字幕的图像检索,基础引用表达式和多模式验证。...拥有6个任务head,12个数据集以及超过440万个独立的训练实例,这种规模的多任务训练很难控制。为了克服这个问题,首先将所有模型都在同一数据集上进行预训练。

1.1K10

Oracle Database 18c 的10新特性一览

1.自治数据库 - Autonomous Database 首先,从最高级别上,Oracle 18c 将是一个『自治数据库 - Autonomous Database』,这由Larry Ellison首先发布...4.In-Memory的外部表和InLine外部表支持 这个特性值得独立说明,外部表使得Oracle对外部数据操作更加灵活,并且基于内存列式存储压缩,能够更快的支持大数据量的运算,对于数据仓库环境将会是极大的增强...并且由于外部表的数据基本处于静态,更适合使用In-Memory来处理,Oracle声称这一改进将会带来100倍的提升,接下来就要看我们如何将外部表用的更好了。 ?...Inline外部表,可以通过SQL直接调用,无需创建仅需一次使用的外部表,这使得开发灵活了很多,也减少了大量元数据的处理: ?...9.基于NVRAM的多级缓存增强 Andrew在多次演讲中提到,Oracle基于NVRAM做了很多研发,现在新特性已经披露,在数据库中NVRAM又被作为一级高性能缓存用于加速数据库,这是非常强大的软硬结合优化

1.8K110

这28只概念股2021年“成绩单”来告诉你

◎每经记者通过数据统计发现,过去的一年,28家“虚拟数字人”概念股中,有25家公司股价在2021年累计实现上涨。...在A股2021年考即将结束之际,这些头顶“元宇宙、虚拟人”光环的公司2021年“成绩单”表现如何?...每经记者通过数据统计发现,过去的一年,28家“虚拟数字人”概念股中,有25家公司股价在2021年累计实现上涨。而在已披露年报或业绩预告的26家公司中,有19家公司实现盈利,7家公司出现亏损。   ...Choice数据显示,在111家“元宇宙”概念股中,有63家公司在2020年的年股价累计涨跌幅为下跌;到了2021年上述111家公司仅有28家公司的累计年股价为下跌。   ...从数据来看,正如文浩所言,虚拟人概念股的业绩还尚未兑现。   这是因为尽管上述公司均被划分为“虚拟数字人”概念股,但大部分公司并不以虚拟人为主营业务,甚至部分公司在2021年末才开始布局虚拟人赛道。

36630

全球人工智能企业各数据一览

在前面的一篇文章中,我们简单总结了人工智能的八关键技术,今天我们再来盘点下当今全球TOP20的人工智能领域公司的相关数据 当然数据不是非常全面,但是从一定程度上也能代表人工智能领域了~ 数据展示 我们先来简单看下数据内容...df = pd.read_csv('data.csv') df Output: 数据比较整齐,不需要做什么特殊处理了~ 可视化分析 我们先来看一下整体情况 下面我们进行细化的可视化分析,主要还是使用...我们再通过时长区间来具体看下数据 下面再根据成立时长区间进行汇总,看看不同区间公司总的市值情况 人工智能技术作为时代的宠儿,既有中青代公司的引领,也有初生企业的奋进,更有老牌劲旅的坚持,好不热闹!

48830
领券