声音模仿！我学会（废）了

出品：科普中国

制作：王丽娜、王珍珠、李云飞

监制：中国科学院计算机网络信息中心

声音是由物体振动产生，通过介质（空气或固体、液体）传播并能被人或动物听觉器官所感知的波动现象。

最初发出振动的物体叫声源。大自然中充满着丰富的声音，如风声、雨声、流水声、鸟啼、虫鸣等，各种各样的声音构成了一个奇妙的世界。

图片来源：Veer图库

随着社会的进步，衍生出了以驯服声音为职业的人，比如口技演员和拟音师。

口技演员：人体仿声杂技艺术

驯服声音，让声音服务于人类，在上古时代就有了。那时的人们为了狩猎，逐渐学会模仿鸟兽的叫声来引诱它们，或模仿可怕的吼叫声来驱赶它们，以便更好地捕捉猎物。

大概在宋代之前，口技就已经成为一种专门职业。到了宋代，口技这一杂技品类逐渐兴盛起来，在“瓦舍勾栏”这些专门表演百戏、杂技、歌舞的场所，观众也可以欣赏到精彩的口技表演。

到了清代，因口技表演者多端坐于布幔或屏风后进行表演，也称“隔壁戏”。至此，口技从单纯模拟某一种声音，发展到能同时模拟各种声音，并演绎出一个个生动的故事。

中学语文课本中收录的清代林嗣环的《口技》，就重现了一位口技艺术家精彩的演出过程。表演者用口、齿、唇、舌、鼻、喉等发声器官模仿各种声音，令人听之如身临其境。

《口技》（图片来源：人教版初一《语文》下册）

口技演员为什么能够模拟各种声音呢？

回答这个问题，我们首先需要了解描述声音的主要因素。

描述声音的因素主要有响度、音调和音色。听觉判断声音强弱的属性称为响度，响度与声波振动的幅度有关。一般而言，声波振动幅度越大，响度越大。

音调是指听觉判断声音高低的属性，主要与声波的频率有关。声波的频率越高，音调越高。音色是人在听觉上区别具有同样响度和音调的两个声音之所以不同的属性。音色与声波的振动波形有关，或者说与声音的频谱结构有关。

不同发声体由于材料、结构不同，发出声音的音色也不同。例如音叉、长笛、小提琴发出的声音不一样，呈现的波形和频谱结构也不一样。

音叉、小提琴和长笛发出声音的波形图

（图片来源：2018八上浦东期中）

口技演员正是利用了声音的以上特性，依赖高超的发声技艺和形象的模仿能力，才将人类社会生活或自然界的声音重现于听众的耳中，营造出一个个独特的声音的艺术世界。

但由于人类生理构造的局限性，口技演员能够模仿的声音还非常有限，对声音的驯服水平有待继续提高。

拟音师：让电影声音更加立体

电影的发展催生了一种新型职业——拟音师，他们根据电影画面，为人物的动作、行为以及场景等创造相匹配的声音。

拟音师突破了口技演员主要依靠人体自身发声系统模仿声音的局限性，以各种方式作用于可以找到的各种材料，结合录音设备、声场环境来创造影视剧中需要的各种声音。

也许你会好奇，影视剧中的声音为什么不与画面同步录好，而需要后期制作呢？

这主要是因为在电影拍摄的特定场所，录音设备的现场收音受到环境因素的影响，往往达不到理想的效果；其次，一些虚拟的场景（比如科幻片）本来就没有声音，只能通过后期来匹配。

你想象中拟音师的工作室是不是这样的——灯光音响调音台一应俱全，干净又整洁？

录音棚（图片来源：veer图库）

实际上拟音师的世界是这样的：

台湾拟音师胡定一的拟音棚（图片来源：影片《拟音》截图）

是不是很令人吃惊呢？

电影作品中那些震撼人心的声音就出自这样一些最普通的道具——一口生锈的老锅、一把破扇子、一件要扔的旧衣服、被孩子们淘汰的毛绒玩具等等。

这个拟音师的世界，仿佛一个废旧物品杂货铺。

拟音师的工作就是在生活中寻找相似的频率，频率相似发出来的声音就会相似。为此，他们做了各种尝试。不断地选择材料、尝试动作、录制音响，每一个过程都要经过反复实验才能达到理想的效果。

随着电子音效素材的积累，拟音师职业受到了一定的冲击，利用已有音效既便捷又经济，而拟音师的工作繁琐且耗时耗力，经费支出也较多。

但是，想要做出生动的、充满独特魅力的音效，已有的素材是远远不够的。

在不同的影视作品中，在不同情境下，想要更好地契合人物的情感变化，对声音的细节要求是很高的。比如同样是开门的声音，不同的人在不同情绪下开门的声音是不一样的。

再比如下雨的声音，不同季节落在不同物体上的雨滴，节奏、音效都是不一样的，刚下雨的声音、雨越下越大的声音和最后一滴雨落下的声音也各不相同。

拟音师需要敏锐地感受现实生活中声音的层次感，以及不同情形下的细微变化，想象虚拟场景中最接近人们心灵的声音，并将其传达给听众。

在拟音师那里，声音不仅可以编织曲折的故事，也可以用或铿锵或悠扬，或飘渺或清晰的方式表达人物的情感波动，使听众的心灵得到升华。

AI拟音能否替代拟音师？

在2020年的一项研究中，美国的研究人员开发了一个名为AutoFoley的自动深度学习工具，它可以分析视频关键情景中的运动，自动合成与场景相匹配的音效。

图片来源：Veer图库

利用这一AI拟音程序，可以节省大量的人力、物力和时间，极大地提高拟音工作的效率，对电影的量产有着积极的意义。

不可否认，就音效的感情色彩和变化轨迹而言，人工拟音较之自动拟音程序有更多的优势。

然而，那些高品质的、直击心灵的声音却仍旧需要拟音师们用心琢磨、精心打造。人工拟音比AI拟音程序更接近人类的心灵，更能关注到自然和社会生活中的声音细节。

因此，未来AI拟音可能在某些方面能够超越拟音师，却不可能替代拟音师。正如人工智能永远不会替代人类一样，那些推动文明进步和科技发展的人类独有的复杂情感、创造性思维，是很难被机器替代的。

声音可以合成，但感觉没法复制。一名优秀的拟音师，不仅要积累丰富的生活经验，熟悉各种材料之间的联系，还要具有较高的艺术修养和精益求精的工匠精神。对于长期以师带徒的传统模式传承的拟音行业而言，行业延续是当务之急。

拟音技术和许多传统手艺一样，它们的传承有待老一辈艺术家的悉心传授和青年一代的接续前行。

社会在发展，科技在进步，对声音的研究必将更加深入。相信科技手段和传统手艺会互相促进、共同发展，而驯服声音的人，也会为我们带来更加绚丽美妙的听觉盛宴。

参考文献：

[1]周甜.拟音师魏俊华手中有千军万马[EB/OL].南方人物周刊.2018-01-03/2021-11-16.https://nfpeople.infzm.com/article/3970.

[2] S. Ghose and J. J. Prevost. AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos With Deep Learning[J].IEEE Transactions on Multimedia, vol. 23, pp. 1895-1907, 2021, doi: 10.1109/TMM.2020.3005033.

王丽娜、王珍珠、李云飞（中科院声学所水下环境信息感知实验室）