以下文章来源于未来科技,作者Jerry李鑫
Suno发布了全新版本v4.5,为AI音乐创作带来重大升级。新版本支持更多音乐风格和智能风格混搭,增强了人声表现力和情感表达能力,呈现出更复杂的音色和细节。同时,提示理解能力显著提升,并新增“提示增强助手”功能,帮助用户更精确地构建创作提示。此外,翻唱和角色功能的强化,提供了更具沉浸感的个性化音乐体验。音质全面提升,单曲生成长度最长可达8分钟,让AI音乐进入“可听、可用、可分享”的新阶段。
微软发布了Phi-4-Reasoning,展现了小模型在复杂推理中的新潜力。通过独特的多阶段训练方法,这款仅有3.8亿参数的Phi-4-Mini在数学、科学等高难度任务中具备了接近大模型的推理能力,推动了“小体量大脑袋”的概念。相较于动辄数十亿参数的大模型,Phi-4-Reasoning在边缘计算设备、移动端及企业本地系统等低资源环境中更具适应性,响应更快且部署更灵活。在AIME 2025等推理基准测试中,它的表现超越了Llama-70B和DeepSeek-R1,甚至在某些任务中胜过671B级别模型。
5月6日,Gemini 2.5 Pro更新0506版本(I/O Preview),提升了编码能力,尤其在前端Web开发、编辑和转换方面表现显著改进。此外,针对用户反馈的问题,相关函数调用已得到修复,系统的可靠性也有所增强。
5月7日,腾讯元宝的文生图功能迎来升级,新增了混元和DeepSeek模型的图像生成能力。用户只需输入一句话指令,系统便能自动扩写为更完整的提示词,生成高质量、富有想象力的图像。这项功能已在全平台上线,支持多种风格的创作,如童年漫画风格、莫奈风格等。此外,用户可生成饮食宣传图、产品设计图等,图文一致性和画质进一步提升。
5月8日,Figma在Config2025上宣布推出多个新功能,其中Figma Sites是一款全新的全能工具,旨在让用户能设计和构建定制的响应式网站,而无需切换工具。此功能旨在简化网站设计流程,提供一站式解决方案,提升用户体验。
5月9日,腾讯混元宣布正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元视频生成大模型(HunyuanVideo)打造,主体一致性效果超过现有的开源方案。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。
5月9日,腾讯元宝现已支持对话分组,用户跟元宝的每一条对话,都可以根据不同主题、类型、任务,做“文件夹”式分组归类,方便集中管理大批量对话,快速定位查找。在每个单独分组中,用户还可设定“独立指令”,定制元宝在该分组中的回答方式和风格。
Cursor已更新至0.50.x版本。此次更新主要包括简化定价和增强功能,如推出统一的基于请求的定价和Max模式,支持并行任务的后台代理。此外,改进了上下文管理,支持@folders功能,加快文件编辑速度,增强了聊天功能(支持导出和复制),并使用本地终端仿真替代模拟终端。同时,新增了上下文状态图标,可显示文件的包含情况。
Google AI Mode在Labs的推出受到了广泛欢迎,现已取消等待名单,所有美国用户可立即使用。该模式允许用户提出更复杂和具体的问题,帮助他们找到新的网站和商业信息。接下来,该模式将增加视觉产品和地点卡片功能,用户可快速获取评分、评论、营业时间等信息,及实时产品价格和库存。例如,寻找复古家具商店时,AI Mode将提供相关商家的实时数据,便于用户作出决策并轻松获取联系方式或导航。
领取专属 10元无门槛券
私享最新 技术干货