首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2025年5月第2周AI资讯:史上最强数字人模型来了

我为大家分享几组重要的人工智能新闻:

Avatar 4 发布

本周,Heygen 发布了 Avatar 4 数字人模型。只需提供照片、脚本或语音,即可生成一段逼真的数字人播报视频。

新模型能够根据语音的节奏、语调、情绪合成真实的面部表情和动作。相较于其他数字人工具,Avatar 4 支持侧脸说话效果,以及半身和全身格式,并能够表现出暂停、点头、语调起伏等细微动作。

登录Heygen,切换到 Avatar 4 模型,即可上传图像及语音或文字脚本,点击生成按钮即可预览效果。

Avatar 4 支持包括中文在内的多国语言,支持多种类型图像,畅享娱乐社交新体验。

Gemini 2.5 Pro 发布

Google 本周发布了 Gemini 2.5 Pro 模型,重点提升了编码能力。例如,该模型可以理解图像并将其转换为代码图形,效果非常炫酷。

Gemini 2.5 Pro 具备强大的前端编辑能力,能根据草图自动生成美观、结构清晰的网页组件和 UI 界面,支持通过 Canvas 实时预览效果。目前在前端开发领域,已排名 Webdev Arena 第一。

此外,Gemini 2.0 Flash 模型的图像生成能力也有了显著提升,图像视觉质量更好,文本渲染更准确。

LTX 13B 模型开源.

Lightricks 推出了旗下最强视频生成模型 LTX V13B,该模型在消费级硬件上生成 AI 视频速度比同类快 30 倍,且无需企业级 GPU。

该模型引入多尺度渲染技术,通过逐层生成视频细节,显著提升效率。发布意味着消费级显卡也可流畅生成高清视频。

作为拥有 130 亿参数的模型,LTX V13B 即使在高速运动和复杂场景下,依然表现出色。目前已开源并集成到 LTX Studio 中,欢迎体验。

Mistral AI 发布 Medium 3 模型

法国 AI 企业Mistral AI本周发布了 Medium 3 多模态模型,具备 SOTA 性能,成本比同类产品低 8 倍。

虽然评估测试中表现优异,但实际编码能力仍与主流模型有差距。

ComfyUI 更新

ComfyUI 官方推出原生 API 节点功能,支持在工作流中调用多个付费模型 API,包括 VEO、GPT-4o、Image、Stability、Luma、Redraft 等 11 种模型、65 个节点。

用户可在单个工作流中灵活调用多种商业模型,大幅提升创作效率。完成更新后,登录并购买积分,即可选择所需图像或视频 API 模板。

ComfyUI 表示,其 API 定价将与官方保持一致。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OzOYRIRhJLLh71C_Q8s5x1lQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券