Mistral AI 最新推出的 Pixtral Large 模型,带来了更强的多模态能力。作为一款开源的多模态模型,它不仅在参数量上达到 1240 亿,更在文本和图像理解上实现了质的飞跃。
Pixtral Large 配备了 123B 参数的解码器 和 1B 参数的视觉编码器,在语言理解基础上显著强化了视觉处理能力。这意味着它能够轻松处理图像、文档和复杂图表等多种形式的数据。
支持 128K Token,让它一次可处理多达 30 张高分辨率图像或长达数百页的复杂文档,无需频繁切换。
能解析多种输入格式,如 OCR(光学字符识别)、表格、公式、图形等,适合文档理解、图表分析等任务。
Pixtral Large 在数学推理任务中准确率达到 **69.4%**,领先所有同类模型。
在复杂文档和图表的推理能力上,模型成功超越 GPT-4o 和 Gemini-1.5 Pro。
在真实场景测试框架下,Pixtral Large 全面领先 Claude-3.5 Sonnet、GPT-4o 等顶级模型,特别是在图表、文档和图像处理能力方面表现尤为突出。
示例问题:我买了咖啡和香肠,加上 18% 的小费后需要支付多少? 模型回复: 解析账单内容,计算每项金额、总费用和小费后,清晰输出应付金额:36.58 CHF。
示例问题:Dark Dragon 模型在训练中什么时候出现问题? 模型回复:分析损失曲线后,准确指出模型在 10,000 步附近出现不稳定。
Pixtral Large 能显著提升知识共享、文档语义理解、任务自动化和客户体验等企业应用场景的效率。
Pixtral Large 的发布,为多模态技术打开了新的可能。无论是科研、商业,还是日常场景,它都展现了强大的适配能力。未来,Mistral AI 是否会继续刷新多模态模型的上限?让我们拭目以待!