厉害了!阶跃星辰发布全新多模态推理模型,AI也能“看图说话”啦!
最近,阶跃星辰科技团队放了个大招,正式推出了一个全新的多模态推理模型,名叫Step-R1-V-Mini。这玩意儿听起来高大上,但简单来说,就是让AI也能像人一样,通过看图片,理解图片里的内容,然后进行推理和判断。这可不是简单的图片识别,而是更高级的“看图说话”!
Step-R1-V-Mini最牛的地方在于它能同时处理图片和文字,并且给出文字形式的答案。这意味着,你可以给它看一张图,然后问它问题,它就能根据图片里的信息,结合文字信息,给你一个靠谱的回答。这可比以前只能识别图片里的物体要厉害多了!
技术突破:强化学习让AI更聪明
Step-R1-V-Mini之所以这么厉害,是因为它的训练方法很特别。他们采用了多模态联合强化学习,听起来很复杂,但你可以把它理解为,他们给AI设置了一个奖励机制,让AI在不断尝试的过程中,学习如何更准确地理解图片,并进行推理。而且,他们还特别针对图片空间的推理链路,设计了一个verifiable reward机制,避免AI在复杂的图片推理中犯错。这种方法比DPO之类的更靠谱,尤其是在处理复杂的图像时。
为了让AI学习更多知识,阶跃星辰还设计了一套多模态数据合成链路,简单说就是制造大量“学习资料”,通过PPO强化学习训练,同步提升文本和视觉推理能力,保证AI在学习的过程中,不会顾此失彼。
榜单第一!实力认证
Step-R1-V-Mini的实力可不是吹的,在多个公开榜单上都表现出色,尤其是在MathVision视觉推理榜单上,更是拿下了国内第一!这说明它在视觉推理、数学逻辑和代码方面的能力都非常强悍。
总而言之小编认为,Step-R1-V-Mini的发布,让AI在视觉推理领域更上一层楼。现在,你可以在阶跃AI网页端(跃问视频AI工具上面)或者阶跃星辰开放平台上体验这个强大的模型了。阶跃星辰也表示,这只是他们在多模态推理方向的阶段性成果,未来还会继续努力,推动AI技术的进一步发展。
以后,说不定AI真的能像人一样,看图说话,甚至能更好地理解这个世界了!
领取专属 10元无门槛券
私享最新 技术干货