展开

关键词

模型训练之难,难于上青天?预训练易用、效率超群的「李白」模型库来了!

机器之心发布 机器之心编辑部 LiBai(李白)模型库覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流 Transformer 库的优点,让模型训练飞入寻常百姓家 凡此种种,使得模型成为部分科技巨头的特权。如何加速模型训练效率,让更多工程师可以使用、研究模型成为当务之急。 问题是,市面上那么多支持分布式训练的模型库,选哪个最合适? 近期,由一流科技团队研发的以高效性起家的国产开源深度学习框架 OneFlow 上线了 LiBai(李白)模型库,这个新生代模型库覆盖了 Hugging Face、Megatron-LM、DeepSpeed 模型训练通常需要依赖一些技术,LiBai 提供了混合精度训练、梯度重计算、梯度累加、ZeRO 等特性,可以轻松与数据并行、模型并行、流水并行组合使用。 快速复现实验。 DeepSpeed:基于 PyTorch 的模型显存优化相关的深度定制库,提供分布式训练、混合精度训练、ZeRO 等技术,可以有效节约内存的开销,使得在数据并行下也可以有效地训练模型。

9910

OpenAI研究所制定四研究目标

OpenAI是一家非营利人工智能研究公司,其使命是构建安全的人工智能,并尽可能广泛推广人工智能。 正在努力发展人工智能,并乐于与其他机构共享其方案及成果,同时也将努力加强其组织管理结构,为此制定了以下目标: 一 度量自身取得的进展 虽然人工智能的度量指标难以确定,但我们需要一个指标来度量我们的进展并帮助确定研究重点 因此研究人员正在制定一项指标体系,用以衡量智能助手在各种环境条件下对用户预期目标的实现程度。 二 打造家用机器人 OpenAI正在研究如何让实体机器人(现成的、非OpenAI制造的产品)帮人们做日常家务。 从更广泛的意义上看,机器人研究为解决人工智能领域的诸多难题奠定了良好的实验基础。

535100
  • 广告
    关闭

    腾讯云图限时特惠0.99元起

    腾讯云图是一站式数据可视化展示平台,旨在帮助用户快速通过可视化图表展示大量数据,低门槛快速打造出专业大屏数据展示。新用户0.99元起,轻松搞定数据可视化

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【图说】我国重点行业领域大数据应用研究(8领域)

    全文较长,建议阅读时间4分钟。 往期回顾:【图说】2016年中国云计算产业趋势分析报告 ?

    68560

    tick数据研究

    经常听见tick数据,回测的时候也用过,但是还真的没有自己去处理过tick数据,据说tick数据有很多坑,所以打算自己研究一下。 首先的第一步就是先拿正常的tick数据来生成bar,从而能够理解一些细节,然后就是自己用ctp去接收tick数据,看看ctp有没有坑。       这里,完美的tick数据是wind上的。       这是wind上面导出来的,看起来还是比较正常的,反正一秒两个数据嘛。 实际过程中,我们的tick数据都是实时的,所以,tick数据的质量往往由两个因素决定,一个是我们处理tick的回调数据的速度,如果响应和处理都很慢的话,显然就会有很大的问题;另外一个影响实时的tick数据的因素就是 ctp前置的实时负载,如果服务器压力的话,很容易就会丢失数据

    23520

    程序员大数据智能分析唐诗朋友圈:李杜关系如何?谁是好基友?

    首先,看一下著名的李白与杜甫。全唐诗中,杜甫写了12首与李白有关的诗,李白则只有3首与杜甫有关的诗。 “前进四”表示,杜甫写李白的诗多,一方面因为李白是长辈,比杜甫了十来岁,成名时间也早得多,更多的是因为杜甫和李白的性格不同:李白飘逸,杜甫深情。 那么,唐代诗人间的唱和互动以哪两人最为频繁呢? 白居易是“V中的V” 另外,从排名前三十的引用关系来看,白居易还与李逢吉、崔玄亮、李建、李绅等名字相连次数很多。“前进四”称,白居易绝对是唐朝诗人朋友圈中的明星,是“V中的V”。 “数据挖掘”在历史研究中大有可为 实际上,程序员的这次“跨界”也得到不少人文领域读者的关注。 信息技术革命与“大数据”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“数据挖掘”的特长在历史研究中大有可为。

    74040

    数据分析唐诗朋友圈 白居易最“V”

    首先,看一下著名的李白与杜甫。全唐诗中,杜甫写了12首与李白有关的诗,李白则只有3首与杜甫有关的诗。 “前进四”表示,杜甫写李白的诗多,一方面因为李白是长辈,比杜甫了十来岁,成名时间也早得多,更多的是因为杜甫和李白的性格不同:李白飘逸,杜甫深情。 那么,唐代诗人间的唱和互动以哪两人最为频繁呢? 白居易是“V中的V” 另外,从排名前三十的引用关系来看,白居易还与李逢吉、崔玄亮、李建、李绅等名字相连次数很多。 他山之石 “数据挖掘” 在历史研究中大有可为 实际上,程序员的这次“跨界”也得到不少人文领域读者的关注。 信息技术革命与“大数据”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“数据挖掘”的特长在历史研究中大有可为。

    61160

    数据猿 产业研究 | 影视大数据应用专题研究

    46530

    学界 | 定量研究:当前机器学习领域十研究主题

    随后,我们用机器学习算法确定了机器学习领域中排名前十的研究主题。不局限于模型,我们提供了涵盖优化、数据、特征等方面的整体视角。这种定量方法减少了调查偏差。 前言 2007 年,一篇名为《数据挖掘排名前十的算法(Top 10 algorithms in data mining)》的论文指出并介绍了在数据科学领域中排名前十的最有影响力的数据挖掘算法。 源于对主要期刊及会议的定量分析,本文研究回顾了机器学习研究领域内排名前十的流行研究方向。本研究涵盖了一些更广泛范围内的研究主题,不仅包括模型,还包括像数据集,特征,优化技术以及评价矩阵这样的概念。 我们注意到在排名前三的研究主题,即「支持向量机」,「神经网络」,以及「数据集」之后,研究主题的流行度发生了急剧下跌。我们注意到在「目标函数」之后有另一次下跌。接下来的 7 个话题在流行度方面非常接近。 这一现象可以归为如下原因:首先,我们不只考虑模型,而将考察范围扩展到包含特征,数据以及优化的整个机器学习领域。其次,不同于对领域内专家的看法进行调查,我们采用定量研究以减小偏差。

    53530

    tick数据研究(一)

    经常听见tick数据,回测的时候也用过,但是还真的没有自己去处理过tick数据,据说tick数据有很多坑,所以打算自己研究一下。 首先的第一步就是先拿正常的tick数据来生成bar,从而能够理解一些细节,然后就是自己用ctp去接收tick数据,看看ctp有没有坑。       这里,完美的tick数据是wind上的。 一切的行情软件,其实都是根据tick数据来实现的。       tick数据当然还有别的东西,比如ask、bid但是,最重要的还是last_price和volume。 实际过程中,我们的tick数据都是实时的,所以,tick数据的质量往往由两个因素决定,一个是我们处理tick的回调数据的速度,如果响应和处理都很慢的话,显然就会有很大的问题;另外一个影响实时的tick数据的因素就是 ctp前置的实时负载,如果服务器压力的话,很容易就会丢失数据

    1.6K20

    数据猿 产业研究 | 影视大数据应用典型企业研究—艾漫数据

    30850

    中关村十AI研究院 | 盘点

    量子位以中关村为范围——这里聚集了诸多高校,以企业研究院为核心——他们有数据又有钱,总结出一份中关村十AI研究院,以供参考。 现在,百度研究院隶属于百度AI技术平台体系(AIG),下设五实验室:分别是深度学习实验室(IDL)、大数据实验室(BDL)、硅谷人工智能实验室(SVAIL)、商业智能实验室(BIL)、机器人与自动驾驶实验室 目前,英特尔中国研究院,成为与位于美国的电路与系统实验室、微处理器与编程实验室、未来技术研究实验室、集成平台实验室并列的英特尔研究院五节点之一。 同时,创新工场人工智能工程院在AI生态方面积极推动数据开源、人才培养两基石建设,举办“AI Challenger全球人工智能挑战赛”、“DeeCamp 人工智能训练营” 等大型AI人才生态建设项目。 搜狗创立于2004年,以输入法、搜索等产品知名,月活跃用户数仅次于BAT,是中国用户规模第四互联网公司。 目前,搜狗在语音识、NLP和机器翻译等方面,也在展现出数据和场景的优势。

    57820

    独家解析 ACL 2017,聚焦三研究领域

    本文是腾讯AI Lab微信号第三篇文章,深度解析本届ACL热门研究。文章第一部分是三前沿领域重点文章解析,包括信息抽取、问答系统和机器翻译等。第二部分是ACL简介及我们NLP团队首次亮相。 图:腾讯AI Lab主任张潼博士现场演讲座无虚席 图:参与ACL的团队 图:现场论文展示 从研究领域和前沿思考出发,我们重点关注了三领域的前沿研究,以下为重点论文评述。 论文分别在模拟数据集和真实数据集上进行了模型检验,在自动评估和人工评估上都证实了其模型超出其他传统端到端模型。 在公开的数据集WebQuestions上,实验证明该方法能有效提升端到端模型实验性能。 该模型在六个分本分类(主题分类和情感分类)的公开数据集中取得目前最优的结果。

    86530

    2022三腾讯犀牛鸟专项研究计划 | 研究主题合集四:语音技术

    腾讯犀牛鸟专项研究计划旨在连接产学智脑,搭建面向科技创新的产学研深度合作平台。 2022年度三腾讯犀牛鸟专项研究计划——AI Lab专项、微信专项和大出行专项已经发布,共计近20个研究主题,拟立项约70项。 本文推送“语音技术”相关研究主题,点击下方“阅读原文”,可跳转至课题详细介绍。 2022腾讯AI Lab犀牛鸟专项研究计划 5.1. Far-field Signal Processing 5.2. Speaker Recognition and Diarization 2022腾讯大出行犀牛鸟专项研究计划 5.1. 导航引导语音拟人化合成技术 犀牛鸟专项更多研究主题合集 (点击下方文字,了解其他研究主题) 研究主题合集一:自然语言处理与知识图谱 研究主题合集二:计算机视觉及图像处理 研究主题合集三:机器学习 点击下方图片

    7830

    2022三腾讯犀牛鸟专项研究计划 | 研究主题合集六:定位技术

    腾讯犀牛鸟专项研究计划旨在连接产学智脑,搭建面向科技创新的产学研深度合作平台。 2022年度三腾讯犀牛鸟专项研究计划——AI Lab专项、微信专项和大出行专项已经发布,共计近20个研究主题,拟立项约70项。 本文推送“定位技术”相关研究主题,点击下方“阅读原文”,可跳转至课题详细介绍。 2022腾讯大出行犀牛鸟专项研究计划 1.1. 基于泛在信号的智能感知与定位技术研究 1.3. 基于卫星原始信号和 IMU、Camera 等信号的多源融合 算法 犀牛鸟专项更多研究主题合集 (点击下方文字,了解其他研究主题) 研究主题合集一:自然语言处理与知识图谱 研究主题合集二:计算机视觉及图像处理 研究主题合集三:机器学习 研究主题合集四:语音技术 研究主题合集五:个性化推荐技术 点击下方图片,跳转专项申报详情 点击“阅读全文”查看课题详情

    6410

    2022三腾讯犀牛鸟专项研究计划 | 研究主题合集三:机器学习

    2022年度三腾讯犀牛鸟专项研究计划——AI Lab专项、微信专项和大出行专项已经发布,共计近20个研究主题,拟立项约70项。 Trustworthy AI 2022腾讯微信犀牛鸟专项研究计划 2.1. 面向金融业务的联邦学习研究 2.2. 面向大规模金融网络的稳健、高效、可解释的图学习算法研究与应用 2.3. 基于反事实学习的异常检测算法研究与应用 2.5. 面向画像标签的小样本学习技术研究 2022腾讯大出行犀牛鸟专项研究计划 1.2. 基于图神经网络的定位算法研究与应用 3.1. 基于时空大数据的 POI 生命周期预测技术和应用 7.1. 大数据波动归因算法研究 8.3. 精确建筑能耗与用地属性关联模型 犀牛鸟专项更多研究主题合集 (点击下方文字,了解其他研究主题) 研究主题合集一:自然语言处理与知识图谱 研究主题合集二:计算机视觉及图像处理 点击下方图片,跳转专项申报详情

    28820

    2022三腾讯犀牛鸟专项研究计划 | 研究主题合集七:金融科技

    2022年度三腾讯犀牛鸟专项研究计划——AI Lab专项、微信专项和大出行专项已经发布,共计近20个研究主题,拟立项约70项。 本文推送“金融科技”相关研究主题,点击下方“阅读原文”,可跳转至课题详细介绍。 2022腾讯微信犀牛鸟专项研究计划 1.1. 金融风控算法研究 1.2. 基于稳定性和解释性的资金异常识别算法研究 1.3. 金融网络在商户分级的应用 犀牛鸟专项更多研究主题合集 (点击下方文字,了解其他研究主题) 研究主题合集一:自然语言处理与知识图谱 研究主题合集二:计算机视觉及图像处理 研究主题合集三:机器学习 研究主题合集四 :语音技术 研究主题合集五:个性化推荐技术 研究主题合集六:定位技术 点击下方图片,跳转专项申报详情 点击“阅读全文”查看课题详情

    9610

    行业研究:大数据(一)

    从今天开始,会不间断的写关于大数据的行业研究,由浅入深、由面到点、至上而下的写,最终目的就是帮助大家理清楚大数据接下来的投资脉络和投资方向。 今天主要是大体的介绍什么是大数据,为什么我要写大数据,以及大数据的产业链等。 大数据的重要性 大数据的重要性主要体现在顶层设计明确、发展空间、涉及面广等几个方面。 1顶层设计 2015年11月,首次提出国家大数据战略,同时提出:实施网络强国战略,建设国家大数据中心。 举一个例子:目前比较火热的“小黄车”,他的盈利模式不在于客户的使用频率,而是客户的数据,目前的互联网三巨头为什么还屹立不倒,主要是其掌握了第一手数据。 大数据产业链 1、 数据的基础设施:软件、云计算、安全、储存等。 2、 大数据的上游:数据源,就是数据的提供者,接下来每一个企业都有可能成为数据源公司。 3、 数据的中游:数据的挖掘、分析以及整合。

    25770

    数据机遇还是忽悠?

    持反方观点,为技术时代的到来欢呼的,一位是北京大学光华管理学院新媒体营销研究中心副主任苏萌,另一位是日本政治家、内阁成员山本一太。 他提出“一台电脑论”,即科学家们研究所需的数据,最好用一台电脑就能装下,否则数据处理会过于繁琐,无助于解决问题。他结合自身经验说,随着数据量的增大,研究的准确性一开始会随之上升,但很快就会趋平。 “举个例子,如果我们把所有《星球大战》铁杆粉丝的数据拿来研究,就一定能准确地判断出他们中谁会喜欢《魔戒》吗?我们发现并非如此。” 反方嘉宾、北大的苏萌教授起身应战。 一位听众挑战正方,说,你们认为大数据过于庞杂纷繁,反而解决不了问题,那是不是说,当处理数据的计算工具变得足够好时,大数据就会变得有用? 正如Howard在发表“失败感言”时所说,“我们并非反对数据,只是反对大而无当的数据数据本身当然非常重要”。人类已经并将继续产生日益庞大的数据,或许不论我们接受与否,大数据时代都已到来。

    56680

    2022三腾讯犀牛鸟专项研究计划 | 研究主题合集八:其他方向

    腾讯犀牛鸟专项研究计划旨在连接产学智脑,搭建面向科技创新的产学研深度合作平台。 2022年度三腾讯犀牛鸟专项研究计划——AI Lab专项、微信专项和大出行专项已经发布,共计近20个研究主题,拟立项约70项。 6.1 实验模型研究 2022腾讯大出行犀牛鸟专项研究计划 4.2 城市素材库建设 6.1 面向未来交通的确定性网络机制研究 6.2 面向未来交通的通信感知融合机制研究 8.2 数据驱动的城市生成与评估指标体系 犀牛鸟专项更多研究主题合集 (点击下方文字,了解其他研究主题) 研究主题合集一:自然语言处理与知识图谱 研究主题合集二:计算机视觉及图像处理 研究主题合集三:机器学习 研究主题合集四:语音技术 研究主题合集五 :个性化推荐技术 研究主题合集六:定位技术 研究主题合集七:金融科技 点击下方图片,跳转专项申报详情 点击“阅读全文”查看课题详情

    23810

    回顾:十重要的脑科学研究

    点击标题下「大数据文摘」可快捷关注 [今日3篇文章] 1.回顾:十重要的脑科学研究 2.谁能做大数据工程师? 3.机不可失,阿里招聘啦! 近10年来,人们对大脑的认知迅速增长。 2003年,在HGP完成不久后,他们组成了位于西雅图的艾伦脑科学研究所,开始绘制小鼠大脑中的基因活性区,并将成果汇集成在线数据库(或图谱)。目前数据库也包括了人类和非人类灵长类动物的数据。 现在,艾伦脑科学研究所继续建立各种图谱,它最近推出了一个10年计划,不仅要研究特定基因被激活的位置,还要研究这些遗传线路如何将浩瀚信息输入大脑。 研究的最终目标是要改变研究脑部疾病和障碍的方式。 ? 5 有趣的记忆 大脑的一神秘之处是,人们仍然无法准确说明记忆是什么,神经回路如何储藏特定的回忆。然而,在过去的十年中,关于记忆的限制,科学家收获颇丰。

    39460

    扫码关注腾讯云开发者

    领取腾讯云代金券