教人工智能像人类一样交流

无论你是在描述你的汽车引擎故障的声音,还是像邻居家的猫一样喵喵叫,当语言无法达到目的时,用你的声音模仿声音是传达一个概念的有效方法。

声音模仿相当于在声音上快速地画一张图片来传达你所看到的东西——只不过你不是用铅笔来描绘图像,而是用你的声道来表达声音。这可能看起来很难,但这是我们都凭直觉做的事情:为了亲身体验,试着用你的声音模仿救护车的警笛声、乌鸦的叫声或钟声。

受我们如何沟通的认知科学的启发,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种人工智能系统,可以在没有训练的情况下产生类似人类的声音模仿,而且以前从未“听到”过人类的声音印象。

为了实现这一目标,研究人员设计了他们的系统来产生和解释声音,就像我们一样。他们首先建立了一个人类声道模型,模拟了喉部、舌头和嘴唇如何塑造喉部的振动。然后,他们使用了一种受认知启发的人工智能算法来控制这个声道模型,并使其产生模仿,同时考虑到人类选择交流声音的特定环境方式。

这个模型可以有效地从世界上获取许多声音,并产生类似人类的模仿,包括树叶沙沙作响、蛇的嘶嘶声和救护车的警报声。他们的模型也可以反向运行,从人类模仿的声音中猜测真实世界的声音,类似于一些计算机视觉系统如何基于草图检索高质量的图像。例如,该模型可以正确区分人类模仿猫的“喵喵”和“嘶嘶”的声音。

在未来,这种模式可能会为声音设计师带来更直观的“模仿”界面,在虚拟现实中创造更像人类的AI角色,甚至帮助学生学习新语言的方法。

该研究的共同主要作者——麻省理工学院CSAIL博士生Kartik Chandra SM ' 23和Karima Ma,以及本科生研究员Matthew Caren——指出,计算机图形学研究人员早就认识到,现实主义很少是视觉表达的最终目标。例如,一幅抽象画或一个孩子的蜡笔涂鸦可以像一张照片一样富有表现力。

钱德拉指出:“在过去的几十年里,素描算法的进步为艺术家带来了新的工具,人工智能和计算机视觉的进步,甚至对人类认知的深入了解。”“就像素描是对图像的抽象、非真实感的表现一样,我们的方法捕捉了人类表达他们听到的声音的抽象、非语音现实的方式。这告诉了我们听觉抽象的过程。”

模仿的艺术,分三部分

该团队开发了三个越来越微妙的模型版本,以与人类的声音模仿进行比较。首先,他们创建了一个基线模型,目的只是为了模仿尽可能接近现实世界的声音,但这个模型与人类的行为并不是很吻合。

研究人员随后设计了第二个“交流”模型。根据卡伦的说法,这个模型考虑了一个声音对听者的独特之处。例如,你可能会通过模仿发动机的隆隆声来模仿摩托艇的声音,因为这是它最独特的听觉特征,即使它不是声音中最响亮的方面(比如,与水花飞溅声相比)。第二个模型创造了比基线更好的仿制品,但团队想要进一步改进它。

为了使他们的方法更进一步,研究人员在模型中添加了最后一层推理。“根据你付出的努力程度,模仿声音听起来会有所不同。制造出完全准确的声音需要时间和精力,”钱德拉说。研究人员的完整模型解释了这一点,他们试图避免那些非常快速、大声或高音或低音的话语,这些话语是人们在谈话中不太可能使用的。结果是:更多类似人类的模仿,与人类在模仿相同声音时做出的许多决定非常相似。

在建立了这个模型之后,研究小组进行了一项行为实验,看看人工智能或人类产生的声音模仿是否会被人类法官认为更好。值得注意的是,实验参与者在总体上有25%的时间喜欢人工智能模型,而在模仿摩托艇和模仿射击时,这一比例分别高达75%和50%。

走向更具表现力的声音技术

对音乐和艺术技术充满热情的Caren设想,这种模式可以帮助艺术家更好地与计算系统交流声音,并帮助电影制作人和其他内容创作者生成更适合特定环境的人工智能声音。它还可以让音乐家通过模仿一种难以用文字提示来描述的声音来快速搜索声音数据库。

与此同时,卡伦、钱德拉和马正在研究他们的模型在其他领域的影响,包括语言的发展、婴儿如何学习说话,甚至鹦鹉和鸣禽等鸟类的模仿行为。

该团队仍有工作要做,他们的模型的当前迭代:它在一些辅音上挣扎,比如“z”,这导致对一些声音的不准确印象,比如蜜蜂嗡嗡叫。它们也无法复制人类如何模仿语言、音乐或不同语言模仿的声音,比如心跳。

斯坦福大学语言学教授罗伯特·霍金斯说,语言中充满了拟声词和模仿但不完全复制它们所描述的事物的词语,比如“喵喵”的声音非常不准确地接近猫发出的声音。霍金斯没有参与CSAIL的研究,他说:“我们从真正的猫的声音到像‘喵’这样的单词的过程,揭示了语言进化过程中生理、社会推理和交流之间复杂的相互作用。”“这个模型向形式化和测试这些过程的理论迈出了令人兴奋的一步,证明了人类声道的物理限制和交流的社会压力都需要解释声音模仿的分布。”

作者:Alex Shipps b| MIT CSAIL

链接:https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109

著作权归作者所有。

声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com