10月19日至20日,由工业和信息化部、江西省人民政府主办的2023世界VR产业大会在江西南昌召开。香港科技大学校董会主席、美国国家工程院外籍院士沈向洋出席本次大会,并在10月19日上午举行的开幕演讲中表示,相信未来,将会在真实世界中并存一个巨大的人工智能世界,人工智能体将连接人类世界与虚拟世界,参与到人类和自然界的交互过程。以下为沈向阳演讲要点:
过去这十几年,深度学习给虚拟现实产业带来的巨大的机会。现在已经有很多人工智能在我们身边,相信在不远的将来,人工智能的数量将会超过人类的数量。而在人类创造人工智能和虚拟现实的未来世界的过程中,创造了人工智能了不起的四个技术层级。
第一层技术是通过神经网络建模。
在人工智能体的最新进展中,神经网络建模功不可没,它可以保证照片逼真性和三维一致性。实际上,通过神经网络建模,不止人脸,比如手部、身体,甚至衣服细节、声音等都可以被很好地呈现出来。
虚拟现实很重要的目的就是内容生成,以往创造三维重建内容通常要两张,甚至多张照片才能做到。而由于神经网络建模的出现,现在仅通过单张照片,加上三维一致性的约束,就可以做到三维重建结果,且效果相当不错。神经网络建模简化了内容生成手段,降低了成本,这将促使AR、VR的应用更加丰富。
第二层技术是神经网络动画。
最近因为深度学习的快速发展,用神经网络来生成动画已经越做越好。这里面有很多难点。例如,如何把整个动画拆分成可以控制的多个不同部分?如何在生成动画的过程中保证结果多样性?如今,只要把四种信号源:声音、音频、角度、表情的人脸图输入到神经网络动画中,即可呈现可控人脸动画重现图,面部控制更精准,更生动。
第三层技术是交互。
如今,人工智能社交是一个非常大的机会。然而,虽然AR、VR最大的用途就是交互,但交互恰恰是最难做的。直到大模型的问世才给行业带来很多的惊喜。通过大模型,人的身体、动作可以完成交互,人脸跟表情的交互可以越做越好。
第四层技术是“AI Agents”,即人工智能体。
今天的虚拟现实控制交互都是通过演员,所谓的“中之人”(指操纵虚拟主播进行直播的人)进行交互的,中之人眨眼睛虚拟现实中的人物才会眨眼睛。而未来的虚拟世界将逐步走到“自理”的过程,让虚拟人自己从环境中自主学习,能够自己做出决策、计划,并执行,成为人工智能体,真正感知世界。未来世界,更多的人工智能体将携手人类建设,通过人工智能之路带来无限可能。
版权声明
版权属于原作者,仅用于学术分享