首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一周AI简报:本周的AI领域又双叒叕"炸裂"了!

在过去的一周里,AI领域可谓是硝烟四起,创新不断。从新模型发布到实用功能更新,各大科技巨头和AI初创公司都在疯狂输出。今天,我们就来梳理一下本周最值得关注的AI重磅事件,看看这些技术将如何改变我们的未来。

1. Mistral AI发布Mistral Small 3.1模型

Mistral AI推出了一款24B参数的开源模型——Mistral Small 3.1。这款模型在关键基准测试中的表现超越了谷歌的Gemma 3和OpenAI的GPT-4o Mini。它支持多模态输入,可处理高达128k的上下文tokens,并且能够以每秒150个tokens的速度高效处理信息。想必是又一个性价比超高的AI模型!如今真的是每隔两周,大模型就朝着又好又便宜的方向进化一轮……

2. Claude引入网络搜索功能

Anthropic的Claude终于也加入了"能联网"的行列!现在,Claude具备了集成的网络搜索功能,使其能够从互联网获取实时信息。这一更新大大增强了Claude的实用性和信息时效性,让用户获得更加全面和最新的回答。

3. OpenAI发布三款全新音频模型

OpenAI本周发布了三款新的音频模型:

一款文本转语音模型(gpt-4o-mini-tts)

两款优于Whisper的语音转文本模型("gpt-4o-transcribe"和"gpt-4o-mini-transcribe")

这些模型都已在API中提供。相信这会让开发者们在音频相关应用开发上有更多创新可能!

OpenAI.fm 有音频创作需求的朋友可以去用用看

4. Krea AI推出视频训练功能

Krea AI推出了基于Wan 2.1(通义万相 2.1)的视频训练功能。用户可以使用自己的媒体内容训练该模型,实现定制化的视频生成任务。也就是说,不管是角色、风格、动作,都能独家定制,按照自己的想法和规范来创作了!这意味着我们距离"人人都是导演"的时代又近了一步!

5. Google的NotebookLM新增思维导图功能

谷歌的NotebookLM增加了由Gemini Pro支持的思维导图功能。该功能帮助用户可视化并组织复杂信息,进一步强化了NotebookLM作为AI驱动的研究助手的角色。对于学生和研究人员来说,这绝对是个福音啊!

6. 腾讯混元升级3D生成模型

腾讯混元(Hunyuan)升级了3D生成模型。新版本包括两个版本:3D 2.0 MV(多视角生成)和速度更快的3D 2.0 Mini。不得不说,我们国家的AI在视频生成和3D生成领域真的是越来越强了!

7. Stability AI 推出Stable Virtual Camera

Stability AI推出了Stable Virtual Camera功能。你可以将2D图像直接转换为3D视频,并且能够设置360°旋转、螺旋和推拉变焦等方式控制移动。这简直就是给平面设计师和内容创作者送上了一份大礼!

8. 谷歌Gemini推出Canvas和Audio Overviews功能

谷歌的Gemini现在包括Canvas和Audio Overviews功能。前者让你可以编写和预览代码,后者则以两位AI主持人之间的播客形式生成AI摘要。总之就是从2.0flash出来之后,能干的事是越来越多了……

本周AI领域的这些重磅更新,再次证明了我们正处于技术快速迭代的时代,无论是开源模型的突破,还是实用功能的创新,都在不断拓展AI的应用边界。现在“2025是agent元年”的呼声很大,其实也从另一个角度说明,大模型的突破,使得越来越多的应用成为可能。

前几天在一档博客节目里,听到一个说法很有意思。大意是,如果你正在做AI应用开发,那么当一个新的大模型出现的时候,问问自己是兴奋还是恐惧?如果是前者,那么恭喜你,水涨船高,你走在正确的路上;如果是后者,就一定要警惕了。被强势的大模型们的某一个更新,而扼杀掉的创业公司或者idea,这两年可是数不胜数了。

你最期待哪一项技术的落地应用?或者你有哪些想法,欢迎在评论区分享!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ODxMUhvFWqRFYryE5CUzsxUQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券