首页 > 快讯 > 谷歌推出了DolphinGemma: 智能系统解锁海豚沟通奥秘；Pixel设备成为“翻译助手”

谷歌推出了DolphinGemma: 智能系统解锁海豚沟通奥秘；Pixel设备成为“翻译助手”

发布时间：2025-04-15 09:33:25 | 责任编辑：字母汇 | 浏览量：340 次

谷歌近日发布了一款开创性的人工智能模型——DolphinGemma，旨在深入理解野生大西洋斑点海豚的交流模式。该项目由谷歌与野生海豚项目（WDP）和佐治亚理工学院的研究人员合作开发，利用WDP近40年来在巴哈马群岛积累的庞大海豚音频和视频记录数据库。
DolphinGemma基于这些珍贵数据进行训练，并采用谷歌先进的音频技术SoundStream分词器将海豚的声音转化为数字格式。这款AI模型能够识别、分析甚至生成逼真的海豚典型声音模式序列，包括口哨声、咔哒声和脉冲串声，其功能类似于人类语言模型，可以预测声音序列中的下一个声音。
值得一提的是，研究人员正利用谷歌Pixel智能手机将DolphinGemma直接部署到水下，进行实地数据记录和分析。与此同时，团队还采用了CHAT系统（鲸类听觉增强遥测系统），该系统将特制的人工哨声与海藻或游戏服等特定物体关联起来，旨在让海豚学习并使用这些声音与研究人员互动。Pixel智能手机能够实时识别海豚模仿的音调，并通过声音反馈给潜水员，告知他们所请求的物体。
这项创新性的研究计划结合了人工智能、移动技术和长期的实地观察，目标是揭示海豚语言的结构，并最终实现某种形式的人类与海豚之间的交流。谷歌计划于2025年夏季将DolphinGemma作为开放模型发布，供其他研究团队用于分析海洋哺乳动物的交流。
DolphinGemma是谷歌将其人工智能技术应用于动物交流研究（特别是海洋哺乳动物）的更广泛努力的一部分。作为其“AI for Social Good”项目的一部分，谷歌还与美国国家海洋和大气管理局 (NOAA) 合作开发了一款鲸鱼探测人工智能，用于分析自2005年以来在太平洋12个地点记录的海洋哺乳动物叫声的水听器数据。此外，谷歌的一个AI模型最近还帮助识别出一种此前未知的布氏鲸叫声，这种被称为“Biotwang”的声音是通过结合目击和录音确定的。
不仅如此，地球物种项目也在积极致力于创建动物交流的表征，涵盖单个物种以及跨物种的交流，其目标是理解包括蜜蜂舞蹈在内的各种非语言交流形式。

谷歌旗下的DeepMind于2025年4月15日宣布开发出一款名为DolphinGemma的AI模型，旨在助力科学家深入研究海豚的“语言”，更好地理解其沟通方式。

技术原理

DolphinGemma基于谷歌开放的Gemma系列模型构建，其训练数据来源于专注于研究大西洋斑点海豚及其行为的非营利组织Wild Dolphin Project（WDP）。该模型能够生成类似海豚的声音序列，并且非常高效。它采用谷歌的SoundStream分词器将海豚的声音转化为数字格式，进而识别、分析并生成逼真的海豚典型声音模式序列，包括口哨声、咔哒声和脉冲串声。其功能类似于人类语言模型，可以预测声音序列中的下一个声音。

研究平台

2025年夏天，WDP计划借助谷歌的Pixel 9智能手机搭建一个平台，该平台能够合成海豚的声音，并且可以聆听海豚的发声以获得匹配的“回应”。此前，WDP一直使用Pixel 6来进行声音模拟和回应实验，而升级到Pixel 9后，研究人员将能够同时运行AI模型和模板匹配算法，从而进一步提升研究效率。此外，团队还采用了CHAT系统（鲸类听觉增强遥测系统），该系统将特制的人工哨声与海藻或游戏服等特定物体关联起来，旨在让海豚学习并使用这些声音与研究人员互动。

应用前景

DolphinGemma的开发是谷歌“AI for Social Good”项目的一部分，旨在推动对海豚语言的研究，并最终实现某种形式的人类与海豚之间的交流。谷歌计划于2025年夏季将DolphinGemma作为开放模型发布，供其他研究团队用于分析海洋哺乳动物的交流。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。