海豚语言被谷歌大模型破译！跨物种交流大门打开，哈萨比斯：下一个是狗

神奇！人类和海豚真的能实现跨物种交流了？！

当地时间4月14日（也是世界海豚日），谷歌CEO皮猜激动官宣：

隆重推出DolphinGemma，基于多年积累的海豚声音数据训练而成，有助于实现跨物种交流。

划重点，这个海豚模型参数仅400M，小到能直接在谷歌Pixel 9手机上运行。

而且皮猜还说了，预计今年夏天会将其开源以促进科学合作。

这一消息也迅速引来大量网友围观，评论区一整个“哇声一片”：

海豚语言被谷歌大模型破译！跨物种交流大门打开，哈萨比斯：下一个是狗

更有意思的是，谷歌和OpenAI这对老冤家这一次又双叒对上了，OpenAI那边发布了GPT 4.1。

有网友直接辣评：GPT 4.1很好，但我对DolphinGemma更感兴趣。（你是懂拉踩的doge）

谷歌大模型破解海豚叫声

谷歌这次发布的AI基础模型DolphinGemma，经过训练可以学习海豚的发声结构，并生成类似的声音序列。

这和大语言模型中的预测下一个token类似，通过识别输入的海豚音频，来预测后续可能出现的声音，并最终解锁这些声音隐藏的潜在含义。

根据介绍，这一模型使用了谷歌独特的音频技术。

其中，SoundStream分词器能快速把海豚声音变成计算机能理解的信号，随后由适合处理复杂序列的模型架构进行处理。

当然，除了训练技术，最重要的环节还是在于获取数据。

谷歌这次找了WDP（ Wild Dolphin Project）合作，这家机构研究海豚社会数十年，拥有极为丰富的数据集。

具体而言，自1985年以来，WDP研究了巴哈马群岛中一个跨世代的野生大西洋斑点海豚（Stenella frontalis）群落。

通过这一“世界上持续时间最长的水下海豚研究项目”，最终积攒了数十年的水下视频和音频，并且每个海豚的身份、生活史和观察到的行为拥有细致匹配。

比如下面这些能够将海豚声音和行为联系起来的例子：

标志性的口哨声，一般出现在母子相遇的场景
打斗时经常会听到脉冲“尖叫声”
求偶或追逐鲨鱼时常用“嗡嗡”声

下图展示了第一种情形。

左图：一只斑点海豚妈妈在幼崽觅食时观察着它，等幼崽觅食完毕后，它会用自己独特的口哨声呼唤它回来。

右图：声谱图显示的口哨声。

因此最终，DolphinGemma是基于WDP的野生大西洋斑点海豚声学数据库进行广泛训练。

另一方面，除了研究海豚的交流方式，WDP还进一步探索了“人机交互”方式。

该机构与佐治亚理工学院合作，开发了CHAT(Cetacean Hearing Augmentation Telemetry) 这款水下应用，其设计目的并非直接解读海豚复杂的自然语言，而是建立一套更简单的共享词汇。

具体来说，CHAT会将生成的合成哨声与海豚喜欢的特定物体联系起来，比如海藻、海草或研究人员使用的围巾。

然后通过人类教导，让天生好奇的海豚学会模仿这些哨声来请求这些物品。

最终，随着对海豚更多自然声音的理解，这些声音也可以被加入到系统中。

△CHAT示意图

概括而言，CHAT设备通过水下扬声器和麦克风实现声音的发送和接收，通过尝试模仿海豚发出的哨声来建立一种基本的沟通桥梁。

谷歌表示，Pixel 6（谷歌2021年10月发布）已经能够实时处理高保真海豚声音分析，而即将发布的Pixel 9（计划于2025年夏季投入使用）将在此基础上进行升级。

Pixel 9将集成扬声器和麦克风功能，并利用手机强大的处理能力同时运行深度学习模型和模板匹配算法。
这将使研究人员能够更高效地分析海豚的声音，并与海豚进行更复杂的互动。

One More Thing

也有人好奇，为什么谷歌选了海豚而非更常见的猫狗来研究？

虽然官方这次未明确提及背后原因，但查阅广泛研究资料后可以得出一个结论：

这是因为海豚的“语言”和人类语言高度接近。

一项发表在《皇家社会生物学通讯》的研究表明，海豚相互间交流的方式近乎于人类。

当一些海豚发出像吹口哨一样的声音时，这些声音是由特定组织震动发出的，其运作原理类似于人类和许多陆生生物的声带振动。

论文一作彼得·麦德森曾表示：

实际上，它们是通过鼻腔中结缔组织的共振频率来发声的，而且它们能随意调节肌肉紧张度和通过的气流。这和人类用声带说话时做的一模一样。

和海豚类似，事实上谷歌2024年9月还推出了一款鲸鱼声音识别模型，它能够识别出八种鲸鱼的独特叫声，并精细区分其中两种鲸鱼的不同发声类型。

而鲸鱼也和海豚一样，其语言和人类语言也具有相似性。

今年年初发表在《科学》杂志上的一项研究惊奇地发现，通过模仿儿童学习语言的过程，鲸鱼的歌声与人类使用的语言存在统计相似性。

这一发现不仅揭开了鲸歌的部分秘密，还为理解跨物种交流乃至AI语言模型提供了全新视角。

可以看到，谷歌首先考虑的还是这些与人类语言更接近的物种。

不过别着急，从DeepMind联创兼CEO哈萨比斯透露的想法来看，没准下一个就是狗了。(doge）

海豚语言被谷歌大模型破译！跨物种交流大门打开，哈萨比斯：下一个是狗

谷歌大模型破解海豚叫声

One More Thing

相关资讯

腾讯云上线DeepSeek全系API接口并打通联网搜索

微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

海豚语言被谷歌大模型破译！跨物种交流大门打开，哈萨比斯：下一个是狗

谷歌大模型破解海豚叫声

One More Thing

相关资讯

腾讯云上线DeepSeek全系API接口并打通联网搜索

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

DeepSeek-R1 登顶 Hugging Face：以10000 赞力压 150 万个模型

微信搜索接入DeepSeek大模型称AI不会使用朋友圈聊天等信息