AI在和人类交流的能力上已经越来越丝滑了,不仅能回复文字,还能用有语气的语音和视频进行沟通回复。然而今天要探究的是,AI可以和其他物种交流吗?
从谷歌近期的研究成果来看,AI确实能,现在已经可以在理解海豚音的领域里有所突破了。
(歌手维塔斯)
不是不是,是海里生活的海豚。。。
就在今年的世界海豚日当天,谷歌联合美国佐治亚理工学院团队以及非营利组织“野生海豚项目(WDP,Wild Dolphin Project)”,共同发布一款专为海豚打造的名为 DolphinGemma 的 AI 模型。
谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)发 X 表示:
“该模型能够学习海豚的声音模式,预测它们接下来可能发出的声音。它的体积足够小(约 4 亿个参数),可以直接在用于海洋的 Pixel 9 手机上运行!这朝着实现跨物种交流迈出了非常酷的一步。”
(谷歌 CEO 桑德尔·皮查伊(Sundar Pichai)发 X)
谷歌这次发布的AI基础模型DolphinGemma,经过训练可以学习海豚的发声结构,并生成类似的声音序列。和大语言模型LLM可以生成下一个token类似,DolphinGemma可预测后续海豚发出的声音,为人类和海豚交流提供了帮助。
与佐治亚理工学院开发的CHAT(鲸类听力增强遥测)系统结合,在水下实现实时声音交互,例如将特定合成哨声与海豚喜爱的物品(如马尾藻、海草、围巾)关联,以便于建立共享词汇表,也就是让海豚理解某种哨声表示的物品,从而实现人类和海豚的互动。
训练数据
当然,DolphinGemma的惊艳表现,除了模型算法,功不可没的自然是训练数据。
DolphinGemma 的训练数据源自野生海豚项目(WDP)自 1985 年起开展的全球最长水下海豚研究,覆盖巴哈马群岛的大西洋斑点海豚群体。
(WDP官网)
通过这一项目,收集了包含数十年的水下音视频记录、个体海豚的身份标识、生活史(如出生、繁殖、迁徙)及行为观察(如觅食、社交、冲突)的数据。
研究团队以 “在它们的世界,以它们的方式” 为原则,通过远程设备记录自然状态下的海豚活动,确保数据的真实性和完整性。
在水下工作的时候,“野生海豚项目”组的研究人员以水上观察不到的方式,直接将声音与特定行为联系起来。几十年来,他们一直在将声音类型与行为背景进行关联,以下是一些例子:
哨声,常用于母海豚和小海豚的重聚。
尖叫声,经常出现在打斗之中。
嗡嗡声,经常出现在求偶期间或追逐鲨鱼时。
(图 | 左:海豚母亲用口哨声呼唤幼崽回来 右:口哨声的声谱图)
后续计划
谷歌计划于 2025 年夏季开源 DolphinGemma 模型,供全球科研机构使用。
有了这个方向的突破,是否人类和自家宠物的无障碍交流也越来越近了?
以上就是全文内容
小伙伴有什么想说的,欢迎评论区见
1
领取专属 10元无门槛券
私享最新 技术干货