首页
学习
活动
专区
圈层
工具
发布
TVP技术夜未眠TVP技术夜未眠

从“AI解说员”到“AI驾驶员”- 视觉大模型的新时代进化论

预约人气 2

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

从GPT-4o到Sora,多模态AI正以前所未有的速度进化。它不再仅仅理解文字,还能“看懂”图像,“听懂”语音,甚至生成流畅的视频。技术层面,模态对齐、语义理解等核心难题逐步被攻克,小模型轻量化多模态成为新趋势。然而,知识图谱和语义结构能否让AI真正理解视觉世界?目前的技术是否解决了语义层对齐的问题?

  • 2025-11-04 周二 19:30-21:30

活动讲师

  • 现任招商局集团人工智能首席科学家,狮子山人工智能实验室主任。北京大学博士,曾任IDEA研究院认知计算与自然语言讲席科学家、微软亚洲研究院研究员、360数科首席科学家、蚂蚁金服资深算法专家等。在自然语言处理、深度学习、分布式系统、物理等领域的顶级学术会议和期刊(NIPS、OSDI、CVPR、SIGMOD、NSDI、AAAI、WWW等)发表论文数十篇,提交七十余项专利。在IDEA研究院期间,带领团队打造“封神榜”大模型开源计划,开源超过100个模型,累计几百万下载量。

  • 博士,文因互联创始人、董事长。师从图灵奖获得者 Tim Berners-Lee 与 James A. Hendler两位知识图谱领域创始人,衣阿华州立大学博士、伦斯勒理工学院(RPI)博士后、MIT访问研究员。目前任中国中文信息学会语言与知识计算专委会委员,W3C顾问委员会委员,中国计算机学会会刊编委,中文开放知识图谱联盟(OpenKG)发起人之一。

  • 腾讯云产品四部总经理,负责腾讯云用户增长及客户经营相关产品。同时也是资深用户增长专家,大数据技术专家,曾任应用宝增长平台总经理,摩拜单车技术副总裁。长期致力于对企业数字化相关研究。

内容纲要

视频生成模型的爆发,让多模态从技术概念迅速渗透至影视、教育、工业等领域。AI如何把非结构化信息转成决策能力?多模态能否成为B端知识工作的统一接口?市面上智能客服、AI会议纪要等如此之多的产品,到底哪类能率先实现商业化闭环?

多模态是AI通向通用人工智能的必经之路吗?当AI具有了行动能力,安全领域的下一个核心问题又应该聚焦在哪里?五年后,“多模态”这个词会不会像“深度学习”一样变得平常?未来的智能体是靠数据驱动,还是知识驱动?

本期 TVP 技术夜未眠,特邀招商局集团人工智能首席科学家、腾讯云TVP 张家兴;文因互联 创始人/董事长、腾讯云TVP 鲍捷 与腾讯云产品四部总经理 田超展开对谈。

11 月 4 日(周二)19:30-21:30, 锁定「腾讯云TVP」视频号,3 位专家将围绕上述问题展开深度交锋,从技术本质到商业路径,从安全问题到未来趋势,为你带来多模态领域最前端的实战经验与市场见解。

扫描二维码关注TVP公众号,获取更多精彩活动详情

活动

主办方

  • 腾讯云 TVP

    腾讯云最具价值专家 用科技影响世界

互动评论

我来说两句

0 条评论
登录 后参与评论
领券