随着圣诞节的到来,各种换汤不换药的圣诞歌曲又在挑战人们审美疲劳的极限。虽然不知道歌手们自己是如何完成每年的旧瓶装新酒的创作,但今年的圣诞歌曲中确实混入了一朵奇葩,如果这几个由人工智能编写的闹腾旋律姑且也能算是歌曲的话。 多伦多大学的博士生楚航近日发布了他的新项目,一首完全由人工智能看着一棵圣诞树来编曲,填词创并朗诵的一首神奇的小调,并配有一个火柴人摇摆起舞。
楚航通过建立一个层级递归神经网络(Hierarchy RNN)的模型,然后收录大量音乐数据,从而由人工智能分析大体的音乐结构特点,发现并总结多首相似风格的音乐中存在的类似的特征,再以新颖的构建框架建立多层神经网络模型,最终通过输入一副画面,便能生成相应主题的流行音乐。研究项目中每层网络对应生成不同的音乐成分,并且每一层都是一个「双层 LSTM(double layer LSTM)」且相互关联,让最终输出的音乐具有更高的质量和丰富性。在多层的构筑框架下,还可以在生成音乐之外编出新颖的舞步和歌唱的人声。楚航便是在这样的构建基础下制作了应用 Neural Karaoke,Neural Dancing 以及 Neural Story Singing。 课余兴趣的游戏之作 研究员楚航是多伦多大学(University of Toronto)的在读博士生,导师为人工智能界大牛 Raquel Urtasun 以及 Sanja Fidler,现主要致力于研究学习 CV(Computer Vision)。此前康奈尔大学(Cornell University)获取硕士学位,于上海交通大学获取本科学位。 个人主页: 这是作为博士生楚航在多伦多大学的第一年,过往研究主要集中于机器学习(machine learning)以及 2D-3D 转换建模等,现今在跟随导师主要研究 CV 的同时,atv,想要做一些有趣的相关研究项目,能够将以往学习的知识联合运用,由此产生了动力并着手于这项人工智能音乐项目的研究。并在两周的时间里得到了目前的成果。 多层构建 RNN 的方式使得 AI 输出的音乐内容更加丰富 Neural Karaoke 的模型核心理论名为分层递归神经网络。在当前的人工智能研究中,RNN(时间递归神经网络 recurrent neutral network 和结构递归神经网络 recursive neural network 的统称,但通常意义上单指时间递归神经网络,本文亦是)是一项非常重要和主流的机器学习方法。相较于深入学习强化单个 RNN,楚航在项目中提出了新的神经网络构建框架,即层级递归神经网络。通过在单个 RNN 上再度构建一个新的 RNN,使模型变得多层立体(hierarchical),并让每层神经网络对应生成单独的音乐成分。而每一层所对应的音乐成分并不是固定不变的,例如在楚航的研究中,最底层的(base layer)RNN 负责生成音乐旋律,然后在旋律上关联按键音,接着在其基础上再构建一层 RNN 负责生成和弦,而后构建出第三层 RNN 对应生成鼓点,最终输出一首结构丰富的的音乐。模型的具体结构如图:
在建立多层神经网络的同时,每一层的 RNN 模型中都建立了双层 LSTM(long-short term memory),并让不同层次相互关联,以弥补 RNN 在短期记忆上的匮乏。而对于音乐的组成成分,楚航团队尝试做了一些拓展,除了最基础的旋律+和弦+鼓点外,团队还尝试加入了舞蹈以及歌词,这两项尝试也就对应到了楚航论文中的 Neural Dancing 和 Neural Story Singing。如果能把现有的所有成分融入到一个模型中,理论上可以做到输入一副图片,然后得到一首相应风格的歌曲并伴随着小火柴人的舞步和歌声。 对于这项研究的核心价值体现,楚航表示或许应当是提出了一个新的人工智能应用场景,atv直播,给学界带来一点新的研究方向。 实验室中的 Neural Karaoke,谷歌 Magenta 与 索尼 Flow Machine 除却楚航的 Neural Karaoke,谷歌的 magenta system 团队和索尼旗下的 CSL 研究室也各自发布了相似的研究成果。谷歌的 magenta 团队发表的人工智能作曲应用 TensorFlow 的运作方法主要基于深度学习下的增强学习(deep reinforcement learning)和极限类比(maximum likehood)。通过构建一个生成音节的神经网络(Note-RNN), 然后建立 LSTM 来预测目标音乐规律中的下一个音节,然后通过 RL 法来将其改善。再由音乐理论和奖励基质(reward base)共同构成的奖励方程确定输出音节,而后送入下一个音节网络。Magenta 团队表示,这样结合了 ML 的 RL 调节法不单单可以用在产生美妙的曲调,同时还能够显著的减少神经网络运作中不必要的无用及失败模型。对于 magenta 团队所使用的方法,楚航表示这和他使用的多层神经网络框架并不冲突,两者的应用应该是平行且互补的。 (责任编辑:本港台直播) |