在过去的一周里,AI领域可谓是硝烟四起,创新不断。从新模型发布到实用功能更新,各大科技巨头和AI初创公司都在疯狂输出。今天,我们就来梳理一下本周最值得关注的AI重磅事件,看看这些技术将如何改变我们的未来。
1. Mistral AI发布Mistral Small 3.1模型
Mistral AI推出了一款24B参数的开源模型——Mistral Small 3.1。这款模型在关键基准测试中的表现超越了谷歌的Gemma 3和OpenAI的GPT-4o Mini。它支持多模态输入,可处理高达128k的上下文tokens,并且能够以每秒150个tokens的速度高效处理信息。想必是又一个性价比超高的AI模型!如今真的是每隔两周,大模型就朝着又好又便宜的方向进化一轮……
2. Claude引入网络搜索功能
Anthropic的Claude终于也加入了"能联网"的行列!现在,Claude具备了集成的网络搜索功能,使其能够从互联网获取实时信息。这一更新大大增强了Claude的实用性和信息时效性,让用户获得更加全面和最新的回答。
3. OpenAI发布三款全新音频模型
OpenAI本周发布了三款新的音频模型:
一款文本转语音模型(gpt-4o-mini-tts)
两款优于Whisper的语音转文本模型("gpt-4o-transcribe"和"gpt-4o-mini-transcribe")
这些模型都已在API中提供。相信这会让开发者们在音频相关应用开发上有更多创新可能!
OpenAI.fm 有音频创作需求的朋友可以去用用看
4. Krea AI推出视频训练功能
Krea AI推出了基于Wan 2.1(通义万相 2.1)的视频训练功能。用户可以使用自己的媒体内容训练该模型,实现定制化的视频生成任务。也就是说,不管是角色、风格、动作,都能独家定制,按照自己的想法和规范来创作了!这意味着我们距离"人人都是导演"的时代又近了一步!
5. Google的NotebookLM新增思维导图功能
谷歌的NotebookLM增加了由Gemini Pro支持的思维导图功能。该功能帮助用户可视化并组织复杂信息,进一步强化了NotebookLM作为AI驱动的研究助手的角色。对于学生和研究人员来说,这绝对是个福音啊!
6. 腾讯混元升级3D生成模型
腾讯混元(Hunyuan)升级了3D生成模型。新版本包括两个版本:3D 2.0 MV(多视角生成)和速度更快的3D 2.0 Mini。不得不说,我们国家的AI在视频生成和3D生成领域真的是越来越强了!
7. Stability AI 推出Stable Virtual Camera
Stability AI推出了Stable Virtual Camera功能。你可以将2D图像直接转换为3D视频,并且能够设置360°旋转、螺旋和推拉变焦等方式控制移动。这简直就是给平面设计师和内容创作者送上了一份大礼!
8. 谷歌Gemini推出Canvas和Audio Overviews功能
谷歌的Gemini现在包括Canvas和Audio Overviews功能。前者让你可以编写和预览代码,后者则以两位AI主持人之间的播客形式生成AI摘要。总之就是从2.0flash出来之后,能干的事是越来越多了……
本周AI领域的这些重磅更新,再次证明了我们正处于技术快速迭代的时代,无论是开源模型的突破,还是实用功能的创新,都在不断拓展AI的应用边界。现在“2025是agent元年”的呼声很大,其实也从另一个角度说明,大模型的突破,使得越来越多的应用成为可能。
前几天在一档博客节目里,听到一个说法很有意思。大意是,如果你正在做AI应用开发,那么当一个新的大模型出现的时候,问问自己是兴奋还是恐惧?如果是前者,那么恭喜你,水涨船高,你走在正确的路上;如果是后者,就一定要警惕了。被强势的大模型们的某一个更新,而扼杀掉的创业公司或者idea,这两年可是数不胜数了。
你最期待哪一项技术的落地应用?或者你有哪些想法,欢迎在评论区分享!
领取专属 10元无门槛券
私享最新 技术干货