让机器“看图谱曲”,百度意欲何为?

许多年之前,在一次讲座中,人工智能先驱侯世达为台下音乐专业的师生播放了两首作品:一首来自肖邦,一首来自机器创作的“伪肖邦”,并让他们判断哪首是真肖邦,他们受过专业音乐训练,但多数人选择了后者。

这算是图灵测试在音乐领域的镜像。直觉上看,音乐与计算分列认知体系的两极,前者关乎感性甚至灵性,后者则被多数人归为“死理性派”,窥不见半点美感,但必须承认,倘若打穿知识边界,在更本质的意义上,音乐与计算共享同一套底层逻辑:某种抽象事物的形式组合——我个人听到过关于音乐最好的定义来自数学家莱布尼茨:音乐是人类精神通过无意识计算获得的愉悦。

正因如此,人类一直试图让机器拥有“谱写”音乐的能力——最早的算法作曲(Algorithmic Composition)甚至可追溯到1957年化学家和音乐家Lejaren Hiller用算法生成了弦乐四重奏伊利亚组曲。如今几十年过去,在大数据“喂养”下,机器学习技术的发展让机器谱曲这件事愈加成熟,且与其他技术的嫁接也让机器谱曲迈向应用层面。

最近一个例子来自百度深度学习实验室,他们发明了一种基于输入图片生成曲谱的自动化系统:输入一张图片,系统会自动生成一段符合该图片内容和意境,且符合韵律和节拍的曲谱——换句话说,试图用机器视角理解一张图片,然后创作一段音乐。7月19日晚,百度联手尤伦斯当代艺术中心(UCCA)举办了一场主题为“AI科技与艺术之夜”的跨界活动。活动现场,百度人工智能根据艺术家劳森伯格“四分之一英里”画作中的两个部分,分别生成了与画作元素相对应的钢琴曲。在随后播放的视频中,他们还展示了人工智能根据梵高的《星夜》和徐悲鸿的《奔马图》创作的曲子。这是百度首次尝试将人工智能技术与艺术创作相结合。

那么问题来了,探究这样一个看起来颇具艺术气质的技术,百度意欲何为?

机器“看图谱曲”

拆解来看,让机器“看图谱曲”的技术实现分两部分:第一是训练过程,用海量数据对机器进行饲养(近些年来,大规模计算能力,各种复杂模型和算法的诞生,让深度学习的训练数据不断增长),输入数据是带有语义标签的图片库,曲谱和对应歌词的曲库,输出是语义标签提取模型和曲谱生成模型;第二部分是测试过程,当机器智慧觅得规律,输入一张图片,则可输出一曲音乐。

先说训练。训练的第一阶段即是利用图片库训练学习,得到语义标签提取模型,训练图片则由人工标注关键词,包含两种类型:第一,图片中出现的物体,譬如高山,大海,天空等;第二,图片色调和意境,譬如灰暗的,晴朗的,愤怒的,压抑的等。训练的第二阶段是学习得到曲谱生成模型,具体则通过局部曲谱聚类,统计语义标签与曲谱单元相关性,统计局部曲谱单元聚类的相邻概率等步骤实现。再说测试,这一过程同样包含两个阶段,第一阶段是给定一张图片,根据语义标签提取模型判断其是否可提取得到该语义标签;第二个阶段则是曲谱生成。

当然,即便如此——即便机器谱写的曲目声音悦耳,由于“艺术”长久以来的某种蛊惑性(其实艺术形式的演进从来都与技术进步息息相关),也一定会有人觉得,这种声音不是“人工”而是“合成”的,从而构建鄙视链。但如前所述,作为一门课题,探寻音乐与数学的关系一直存在,不少作曲家都对二者的结合进行过大胆实验。

看到一篇作者为海甜写的文章就介绍到:无论“算法音乐(以数学方法代替音乐思维,创作过程即演算过程)”,还是“图表音乐”,“几何音乐”,诸多作曲家都试图以数学为路径窥视音乐本质。数学家约翰·傅里叶甚至证明所有乐声都可用数学式描述,而莱布尼茨则说:“音乐,就它的基础来说,是数学的;就它的出现来说,是直觉的。”

不过,这当然不意味着作曲这件事自此将由机器代劳——常识是,在可以预见的未来,人类与人工智能不是对立关系,而更近似于共生。举个例子,如你所知,1997年国际象棋大师卡斯帕罗夫被当时的人工智能打败,但与直觉相悖,近二十年过去了,国际象棋的浪潮并未消散,相反,无论玩家数量还是比赛数量都一直在提升——人类甚至发明了一种自由式国际象棋比赛:人加电脑与其他人加电脑,或者纯粹电脑来比赛,在2014年自由式国际象棋对抗锦标赛上,纯人工智能赢了42场,而“人工+智能”型组合赢得了53场。

嗯,人工智能帮助人类成为了更好的棋手,你完全可以期待,这种助力同样发生在音乐领域,两种智慧的合力一齐谱写出更精致的作品也未尝可知。说不定未来的谱曲形式是:确定性的部分由机器完成,而人类则复杂提供那些真正意义上的“点睛之笔”。

音乐的作用

说回百度这项“看图谱曲”技术——它到底有什么用?

事实上,研发新技术并让它尽快落地,实现商业价值,一直为百度所擅长。就拿与“看图谱曲”技术相关的图像识别来说,其测试版在2010年末上线,经过不断迭代,如今已被应用在电商(譬如拍照购物),社交(譬如通过人脸相似度交友)等领域。

“看图谱曲”同样如此——相较于让人工智能单纯谱曲以换得人类赏识,“看图+谱曲”有着更为广阔的实用性。最本能地猜测也许是产品推广,譬如,机器谱曲可作为单一商品甚至任何一家网店的背景音乐,让用户在购物同时能听到一段“描述”这个产品的音乐,从而提升购物欲望。

这并非空泛之谈。你知道,音乐有着无比漫长的演化史,它几乎出现在人类所有仪式和活动之中,人脑为何迷恋音乐?它是怎么理解和处理音乐的?这些都是开放且令人着迷的疑问。虽然视觉帮助人类获取80%以上信息,但来自听觉的情绪反馈同样巨大——无论是欣喜艺术还是日常生活,关于“一段配乐”的作用,你一定深有体会。

一种常见解释是:音乐与多巴胺的释放有关,后者是一种与“快乐”相关的激素。作家阿城在《爱情与化学》一文中曾说:能直接作用于边缘系统也就是情感中枢的艺术就是音乐。“音乐由音程、旋律、和声、调性、节奏直接造成‘频律’(不是旋律),假如这个频律引起痛苦中枢或快感中枢的强烈共振(不是共鸣)而导致放电,人就被‘感动’,悲伤,兴奋,沮丧,快活。同时脑中的很多记忆区被激活,于是我们常常听到或看到这样的倾诉,‘它使我想起了什么什么……’每个人的经验记忆有不同,于是这个‘频律’,也就是‘作品’就被赋予多种意义了。”

所以从这个意义上,至少在理论上,百度这项“看图谱曲”技术也许尚未成熟,但却可以落地于不同领域——只要涉及“情绪渲染”,譬如广告,社交软件,PR营销,甚至最近火热的AR等等。

当然,这无疑要比让机器作出一首“伪肖邦”要有用的多。



李北辰/文(知名科技自媒体,致力于为您提供文字优雅的原创科技文章;微信公号:李北辰)