让机器“看图谱曲”，百度意欲何为？

许多年之前，在一次讲座中，人工智能先驱侯世达为台下音乐专业的师生播放了两首作品：一首来自肖邦，一首来自机器创作的“伪肖邦”，并让他们判断哪首是真肖邦，他们受过专业音乐训练，但多数人选择了后者。

这算是图灵测试在音乐领域的镜像。直觉上看，音乐与计算分列认知体系的两极，前者关乎感性甚至灵性，后者则被多数人归为“死理性派”，窥不见半点美感，但必须承认，倘若打穿知识边界，在更本质的意义上，音乐与计算共享同一套底层逻辑：某种抽象事物的形式组合——我个人听到过关于音乐最好的定义来自数学家莱布尼茨：音乐是人类精神通过无意识计算获得的愉悦。

正因如此，人类一直试图让机器拥有“谱写”音乐的能力——最早的算法作曲（Algorithmic Composition）甚至可追溯到1957年化学家和音乐家Lejaren Hiller用算法生成了弦乐四重奏伊利亚组曲。如今几十年过去，在大数据“喂养”下，机器学习技术的发展让机器谱曲这件事愈加成熟，且与其他技术的嫁接也让机器谱曲迈向应用层面。

最近一个例子来自百度深度学习实验室，他们发明了一种基于输入图片生成曲谱的自动化系统：输入一张图片，系统会自动生成一段符合该图片内容和意境，且符合韵律和节拍的曲谱——换句话说，试图用机器视角理解一张图片，然后创作一段音乐。7月19日晚，百度联手尤伦斯当代艺术中心（UCCA）举办了一场主题为“AI科技与艺术之夜”的跨界活动。活动现场，百度人工智能根据艺术家劳森伯格“四分之一英里”画作中的两个部分，分别生成了与画作元素相对应的钢琴曲。在随后播放的视频中，他们还展示了人工智能根据梵高的《星夜》和徐悲鸿的《奔马图》创作的曲子。这是百度首次尝试将人工智能技术与艺术创作相结合。

那么问题来了，探究这样一个看起来颇具艺术气质的技术，百度意欲何为？

机器“看图谱曲”

拆解来看，让机器“看图谱曲”的技术实现分两部分：第一是训练过程，用海量数据对机器进行饲养（近些年来，大规模计算能力，各种复杂模型和算法的诞生，让深度学习的训练数据不断增长），输入数据是带有语义标签的图片库，曲谱和对应歌词的曲库，输出是语义标签提取模型和曲谱生成模型；第二部分是测试过程，当机器智慧觅得规律，输入一张图片，则可输出一曲音乐。

先说训练。训练的第一阶段即是利用图片库训练学习，得到语义标签提取模型，训练图片则由人工标注关键词，包含两种类型：第一，图片中出现的物体，譬如高山，大海，天空等；第二，图片色调和意境，譬如灰暗的，晴朗的，愤怒的，压抑的等。训练的第二阶段是学习得到曲谱生成模型，具体则通过局部曲谱聚类，统计语义标签与曲谱单元相关性，统计局部曲谱单元聚类的相邻概率等步骤实现。再说测试，这一过程同样包含两个阶段，第一阶段是给定一张图片，根据语义标签提取模型判断其是否可提取得到该语义标签；第二个阶段则是曲谱生成。

当然，即便如此——即便机器谱写的曲目声音悦耳，由于“艺术”长久以来的某种蛊惑性（其实艺术形式的演进从来都与技术进步息息相关），也一定会有人觉得，这种声音不是“人工”而是“合成”的，从而构建鄙视链。但如前所述，作为一门课题，探寻音乐与数学的关系一直存在，不少作曲家都对二者的结合进行过大胆实验。

看到一篇作者为海甜写的文章就介绍到：无论“算法音乐（以数学方法代替音乐思维，创作过程即演算过程）”，还是“图表音乐”，“几何音乐”，诸多作曲家都试图以数学为路径窥视音乐本质。数学家约翰·傅里叶甚至证明所有乐声都可用数学式描述，而莱布尼茨则说：“音乐，就它的基础来说，是数学的；就它的出现来说，是直觉的。”

不过，这当然不意味着作曲这件事自此将由机器代劳——常识是，在可以预见的未来，人类与人工智能不是对立关系，而更近似于共生。举个例子，如你所知，1997年国际象棋大师卡斯帕罗夫被当时的人工智能打败，但与直觉相悖，近二十年过去了，国际象棋的浪潮并未消散，相反，无论玩家数量还是比赛数量都一直在提升——人类甚至发明了一种自由式国际象棋比赛：人加电脑与其他人加电脑，或者纯粹电脑来比赛，在2014年自由式国际象棋对抗锦标赛上，纯人工智能赢了42场，而“人工+智能”型组合赢得了53场。

嗯，人工智能帮助人类成为了更好的棋手，你完全可以期待，这种助力同样发生在音乐领域，两种智慧的合力一齐谱写出更精致的作品也未尝可知。说不定未来的谱曲形式是：确定性的部分由机器完成，而人类则复杂提供那些真正意义上的“点睛之笔”。

音乐的作用

说回百度这项“看图谱曲”技术——它到底有什么用？

事实上，研发新技术并让它尽快落地，实现商业价值，一直为百度所擅长。就拿与“看图谱曲”技术相关的图像识别来说，其测试版在2010年末上线，经过不断迭代，如今已被应用在电商（譬如拍照购物），社交（譬如通过人脸相似度交友）等领域。

“看图谱曲”同样如此——相较于让人工智能单纯谱曲以换得人类赏识，“看图+谱曲”有着更为广阔的实用性。最本能地猜测也许是产品推广，譬如，机器谱曲可作为单一商品甚至任何一家网店的背景音乐，让用户在购物同时能听到一段“描述”这个产品的音乐，从而提升购物欲望。

这并非空泛之谈。你知道，音乐有着无比漫长的演化史，它几乎出现在人类所有仪式和活动之中，人脑为何迷恋音乐？它是怎么理解和处理音乐的？这些都是开放且令人着迷的疑问。虽然视觉帮助人类获取80%以上信息，但来自听觉的情绪反馈同样巨大——无论是欣喜艺术还是日常生活，关于“一段配乐”的作用，你一定深有体会。

一种常见解释是：音乐与多巴胺的释放有关，后者是一种与“快乐”相关的激素。作家阿城在《爱情与化学》一文中曾说：能直接作用于边缘系统也就是情感中枢的艺术就是音乐。“音乐由音程、旋律、和声、调性、节奏直接造成‘频律’（不是旋律），假如这个频律引起痛苦中枢或快感中枢的强烈共振（不是共鸣）而导致放电，人就被‘感动’，悲伤，兴奋，沮丧，快活。同时脑中的很多记忆区被激活，于是我们常常听到或看到这样的倾诉，‘它使我想起了什么什么……’每个人的经验记忆有不同，于是这个‘频律’，也就是‘作品’就被赋予多种意义了。”

所以从这个意义上，至少在理论上，百度这项“看图谱曲”技术也许尚未成熟，但却可以落地于不同领域——只要涉及“情绪渲染”，譬如广告，社交软件，PR营销，甚至最近火热的AR等等。

当然，这无疑要比让机器作出一首“伪肖邦”要有用的多。

李北辰/文（知名科技自媒体，致力于为您提供文字优雅的原创科技文章；微信公号：李北辰）