为了解决第一个问题,研究者们从图像识别领域找到了方法。他们发现了一种机器学习模型,这种模型会教计算机重建图像中的空白,这种方法叫做“图像修复”(inpainting)。他们认为如果计算机能在一个图像中同时识别 3 个 RGB 值,那么他们就可以把每个声音在他们的新模型中想成一个独立的 RGB 值。而为了解决第二个问题, 他们决定写一个算法,让计算机能够随机地生成旋律,而不是按照一定的顺序生成。 团队成员用一些包含有女高音、男高音、女中音和男低音部分的巴赫众赞歌曲目的 MIDI 来训练计算机。他们随机地在不同乐句点上将歌曲剪切成片段,这样在修正过的部分中,任意给定时间段,计算机都可以“听”到一种到三种声音音色。接着,研究者们开始测试计算机在逐渐地听取每种声音后学到了什么,连续测试直到计算机将这首歌曲的所有声音都学会。他们为计算机设计了 28 层神经网络,使其从过去产生的声音中创造出新的声音。最后,谷歌的科学家们终于对计算机的新作品的审美感到满意。 (这里有一段谷歌 Magenta 创造的音乐,不妨欣赏一下。小编觉得还蛮好听的。) 对巴赫众赞歌的分析让谷歌明白,计算机是可以通过学习来解决音程不和谐问题,计算机最终是可以学习音阶,学会制作更加和谐的音程关系的。 但是还有一个问题就是,他们的模型只能数字化模拟少量真实世界的音乐风格。一方面,他们的模型不会模仿专业声乐歌手天然的音域限制,比如女高音和男低音。在特定的点上,计算机反映的只是一种与乐谱音高一致的声音。研究团队正在将这些人类化的特征编入机器学习模型中。 (这里又有一段谷歌 Magenta 创造的音乐,不妨再欣赏一下。) 为了达到这个目标,必须给计算机更多的“音乐启蒙”。除了创造更多有用的研究让人工智能应用更广泛外,Magenta 的工程师们还对与音乐团体的合作非常感兴趣。 八月份,研究团队发布并更新了一款连接音乐家和谷歌开源 AI 软件的界面—— TensorFlow。这个新的发明允许音乐家将谷歌的人工智能模型连接到他们自己的合成器和 MIDI 控制器上,让 AI 真正地做音乐。同时,软件开发者们也能够将他们的人工智能模型连入其中,代替谷歌的模型,这样可以为 Magenta 社区注入更多谷歌以外的新想法,产生更多有趣的音乐实验。 另外,Lee 继续着他自己的乐队 Black MIDIs 的音乐创作,并将他们发布在 YouTube 上。他的 MIDI 版作曲像是在写一部名叫“标注艺术”的小说,将曲线、字母,甚至是摩斯电码都以其视觉感受写入乐谱中,还有一些则本身就非常数学化。在一个名为《π》的视频中,包含了3141492个音符,3分14秒长,处处洋溢着 π 的气息。另一个视频则是“分形图像”,描述了 Mandelbrot 集合的数学等式。
(点这里,你可以欣赏到令你眼花缭乱的 Lee 的 MIDI 曲目:π) 当听到谷歌新的人工智能项目正在寻找 MIDI 领域人才时,Lee 表示非常愿意参加。他打算将整个 Black MIDI 社区的资料全部贡献给这个新项目。就算这么多的 MIDI 资料无法让计算机的作曲能力突飞猛进,它也能让计算机至少学会一些写作 Black MIDI 风格曲目的技巧。Lee 说:“我们会为这个项目倾尽全力提供优秀内容。” (责任编辑:本港台直播) |