前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >业界 | Facebook开源视觉、语言多任务深度学习框架——Pythia

业界 | Facebook开源视觉、语言多任务深度学习框架——Pythia

作者头像
AI科技评论
发布2019-05-23 22:06:29
5440
发布2019-05-23 22:06:29
举报
文章被收录于专栏:AI科技评论

AI 科技评论按:Facebook 人工智能研究院最近推出 Pythia ——一个深度学习框架,支持视觉和语言领域的多任务处理。其模块化的即插即用设计能够帮助使用者快速构建、复制和基准人工智能模型。

【 图片来源:GitHub 所有者:Facebook 】

Pythia是什么?

Pythia 是一个视觉和语言多模式研究的模块化深度学习框架,它建立在PyTorch之上,具有以下特点:

  • Model Zoo:最先进的视觉和语言模型的参考实现,这些模型包括 LoRRA(SoQ on VQA 和 TextVQA)、Pythia模型(VQA 2018 挑战获胜者)和 BAN
  • 多任务:支持多任务,允许同时训练多个数据集
  • 数据集:包括对内置的各种数据集的支持,如 VQA、VizWiz,TextVQA 、VisualDialog 等
  • 模块:为视觉和语言领域中的各种常用图层提供实现方式
  • 分布式:支持基于 DataParallel 和 DistributedDataParallel 的分布式训练
  • Unopinionated:对基于它构建的数据集和模型实现不受任何影响的功能
  • 定制化:包括自定义损失、指标、调度、优化器、张量板等

Pythia能做什么?

即插即用的模块化设计,能够使研究人员快速构建、复制并基准 AI 模型。你可以使用 Pythia 为您的下一个视觉和语言多模式研究项目提供引导程序,也可以用作视觉和语言数据集挑战赛的入门代码库(TextVQA 挑战,VQA 挑战);还可以用它来回答与视觉数据相关的问题和自动生成图像注释。

Pythia加入了近期的AI比赛(VQA Challenge 2018和Vizwiz Challenge 2018)中获奖作品的元素。功能包括通过参考实现来展示之前的模型如何完成相关基准测试结果,以及迅速评估新模型性能。 除了多任务处理,Pythia还支持分布式训练和各种数据集,以及自定义损失、指标、调度和优化器。

Pythia的意义?

Pythia使得进入视觉和语言子领域的过程变得更简单,也使研究人员能够专注于更快的原型设计和实验。通过提高这些模型和结果的可重复性来加速研究进程,将使得社区更容易成功构建系统并进行基准测试。

通过消除这些障碍,研究人员能更快地为人们和智能机器开发新的交流方式。 同时,这项工作还将帮助研究人员开发自适应人工智能,使得多种理解更好融合到多情境的多模理解中。除了这个开源版本,Facebook还计划继续添加工具、任务、数据集和参考模型。

具体开源链接:

GitHub 地址 https://github.com/facebookresearch/pythia Pythia 官方文档 https://learnpythia.readthedocs.io/en/latest/ 安装教程 https://colab.research.google.com/drive/1Z9fsh10rFtgWe4uy8nvU4mQmqdokdIRR

2019 全球人工智能与机器人峰会

由中国计算机学会主办、雷锋网和中国香港中文大学(深圳)联合承办的 2019 全球人工智能与机器人峰会( CCF-GAIR 2019),将于 2019 年 7 月 12 日至 14 日在深圳举行。

届时,诺贝尔奖得主JamesJ. Heckman、中外院士、世界顶会主席、知名Fellow,多位重磅嘉宾将亲自坐阵,一起探讨人工智能和机器人领域学、产、投等复杂的生存态势。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档