首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

腾讯混元“文生图”技术负责人:研发思路是实用,已广泛用于各类应用场景

腾讯科技《一线》 纪振宇 发自硅谷

在本届GTC大会期间,腾讯混元大模型披露了其在“文生图”领域的进展。腾讯混元文生图技术负责人、腾讯专家研究员芦清林接受腾讯科技《一线》专访时表示,腾讯混元文生图大模型目前从模型结构和技术能力来看,均处于业内领先地位,同时优势和特色还在与广告、游戏、内容、云服务等具体的应用场景结合紧密。

腾讯混元文生图技术负责人、腾讯专家研究员芦清林介绍腾讯混元大模型文生图能力

芦清林介绍说,自2023年10月正式对外亮相以来,腾讯混元文生图模型经过数十次版本更新迭代,自研了基于LLM+ transformer的文生图基础能力,并且基于基础模型,推进了多项应用工作,包含图像风格化、商品背景更换等。

腾讯混元大模型是腾讯自研的通用大语言模型,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

腾讯混元大模型有良好的上下文理解和长文记忆能力,能够流畅完成各专业领域的对轮问答;支持文学创作、文本摘要、角色扮演;能够准确理解用户意图,基于已有数据或信息进行推理、分析;同时有效解决事实性、时效性问题,提升内容生成效果。他表示,目前在人工智能文生图领域,普遍遇到的难点和挑战在于图文不完全相关、图片不正确,出现局部畸形以及细节质感差等,腾讯混元文生图通过中英文双语细粒度CLIP模型,保证主体和属性充分理解前置模型连接图文特征,增强语义表达,基于Transformer的大模型框架,强化生成模型的内容结构合理化表达,引入人体先验结构信息,修正人体结构生成,并通过建设基于模型融合方案,充分发挥模型在人物、场景各个维度的细节展现。

据了解,腾讯混元文生图是中文原生的文生图模型,对中文的语义理解比较强,在混元大模型中输入中文诗句、成语等指令,要求其创作画作,混元文生图一般能准确创作。

而对细节的感知与判别,也是混元文生图的优势能力。比如,“生成在树林中的夜晚,一个棕色头发、绿色眼睛的男子站在树林里。照片采用特写构图,展现了动漫风格和神秘氛围,蕴含了漫画文化”。在优化之前,模型可能难以识别出不同身体部分与颜色的需求;优化之后,则可以相对准确地识别出各处细节的要求。

在内容合理性方面,AI生成人体结构和手部经常容易出问题。混元文生图通过增强算法模型的图像二维空间位置感知能力,并讲人体骨架和人手结构等先验信息引入到生成过程中,让生成的图像结构更合理,减少错误率。

在画面质感方面,混元文生图基于多模型融合的方法,提升生成质感。经过优化之后,混元文生图的人像模型(发丝、皱纹等)效果提升30%;场景模型(草木、波纹等)效果提升25%。从而使生成照片的真实感较强,包括人像、场景与自然景观,可生成长城等中国著名景观、旅游与风景等广告场景中多见的需求。

芦清林说,腾讯混元文生图模型的另一优势在于与许多的应用场景结合紧密,例如在广告、游戏等方面,已经得到了广泛应用。

今年一月,腾讯广告发布了一站式AI广告创意平台腾讯广告妙思,该平台基于腾讯混元大模型能力,可为广告主提供文生图、图生图、商品背景合成、妙思衍生、特定风格LORA等不同场景的创意工具。

他表示,腾讯从事大模型相关研发的思路是要“实用”,一定要与应用相结合。未来随着AI的能力逐渐从文生文,到文生图、文生视频,图生图、图生视频等多模态方向不断发展的过程中,依然会坚持这样的思路去做。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OWDS_V3GMk5IcB0rtLr07dDA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券