前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多模态内容理解算法框架项目 Lichee 正式开源,为微服务开源社区贡献力量

多模态内容理解算法框架项目 Lichee 正式开源,为微服务开源社区贡献力量

作者头像
腾源会
发布2021-10-26 11:40:48
7090
发布2021-10-26 11:40:48
举报
文章被收录于专栏:腾源会

导语|Lichee 是一个多模态内容理解算法框架项目,其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。由腾讯看点内容算法研发中心研发。并于 2021 年在腾讯看点、腾讯视频、内容管线、QQ等业务场景均有落地,并平均减少标注样本量 40%+。经过多次实践迭代,可以大幅缩短信息流内容理解需求的研发周期提升人效。此外,为QQ浏览器2021AI算法大赛-多模态视频相似度赛道提供baseline模型及代码。现将Lichee对外开源,为微服务开源社区贡献力量。

PART ONE

主要设计目标

1. 缩短信息流内容理解需求的研发周期

2. 集成AI领域的成熟解决方案

PART TWO

Lichee功能介绍以及适用场景

Lichee 主框架采用分层的思想组织模型训练,通过配置文件组合 DATA、Parser、MODEL、Optimizer、Scheduler 等组件,构建具体的训练流程。此外,Lichee还提供了数据清理、推理加速等能力。

PART THREE

Lichee技术特点

1. 性能优越的预训练引擎

提供了自研中文预训练模型,如 LICHEE-NLG-ENGINE、LICHEE-RESNET-ENGINE 等,免除训练中文预训练模型必须的大量资源和高质量语料库的限制。LICHEE / ShenZhou 预训练模型先后于 2021 年 1 月 8 号和 2021 年 9 月 19 号登顶中文 NLP 权威榜单 CLUE。相关技术创新在 NLP 顶会 ACL 2021 发表文章(https://arxiv.org/pdf/2108.00801.pdf)。

2. 基于配置化的模型训练

满足90%+业务场景仅通过配置即可完成模型训练任务。

3. 提供二次开发能力

提供了基于插件的二次开发能力,来满足更复杂的特殊业务场景。

4. 数据增强

为了进一步降低任务样本的数量,提供了数据增强插件,解决脏数据清洗和数据生成等方面的工作。

5. 能力插件

提供了更多的结构化能力插件,如词法分析工具 LICHEE-LAC、句子相似度工具 LICHEE-SIM、人脸识别工具等。

6. 推理加速

集成推理加速的能力,能够降低业务模型的实际部署成本。

PART FOUR

Lichee项目规划

1. 扩充各领域的预训练模型

2. 扩充训练加速、推理加速能力

3. 兼容 hugging face 项目

4. 提升项目的易用性、开放性及效率

PART FIVE

Lichee开源地址

https://github.com/Tencent/Lichee

欢迎提出你的 issue 和 PR!

本文转载自:腾讯开源 公众号

作者:腾讯开源 

欢迎关注「腾源会」公众号,期待你的「在看」哦~👇

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾源会 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 主要设计目标
  • Lichee功能介绍以及适用场景
  • Lichee技术特点
  • Lichee项目规划
  • Lichee开源地址
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档