Lee 是一名来自休斯敦的 17 岁男孩,他说自己曾经拿爸妈的两台笔记本电脑试验 Black MIDI,结果把 RAM 和 CPU 都烧坏了。他最终给买了个竞技级的电脑,实现了自己捣鼓的心愿。 Jonathan Lee 相信 Black MIDI 的出现会促使工程师开发新型软件,这样一来电脑 RAM 的压力就会小得多,在渲染时也就不会轻易崩溃了。 音乐,深度学习的摇篮 不同于音频录制,MIDI 文件对于计算机科学家而言是理想的机器学习素材。这种文件小巧精致,在互联网的宝库中简单易得,j2直播,并且不需要交付任何版税,其提供的资源更是能几乎不受限制地训练 AI 机器,供人类使用。 深度学习是目前计算机训练的最高水平,这是一种利用人工神经网络学习的方法,其储存的信息与人类大脑和神经系统所处理的信息大致类似。在计算机视觉中,深度学习业已成为机器学习技术的标准。如果计算机知道在一个图像中需要寻找什么样的形状,那么科学家们就知道该计算机如何通过神经网络进行学习。反过来,你也可以在谷歌的 Deep Dream 算法中发现这一过程。谷歌的三位工程师 Alexander Mordvintsev, Christopher Olah 以及Mike Tyka 根据计算机系统能“记得”网上找到的其他图像之特点,利用公司的图像识别软件,以生活中的普通场景为原素材,创造出很多图像。
Deep Dream算法将图像识别过程反转过来,它能从其他画面的图案中创造新的图像。 音乐算法加上MIDI 音乐以及其他输入源也能通过类似的过程谱写乐曲。 让科学家们困扰的是,计算机是否以及如何能够理解那些更主观的东西,例如音乐流派、和弦,以及其中流露的情绪。不过,听音乐能够让计算机达到更高层次的认知水平。 今年七月,来自伦敦玛丽女王大学的一个科学家团队报道称,他们在给计算机听过民谣、舞曲和 hip-pop 三个流派的 6600 首歌曲之后,已经成功训练出了一套神经网络系统,能以 75% 的准确率识别歌曲的流派。 然后他们把计算机的神经网络拆分成不同的层面,以便观察从巴赫(编者按:巴洛克时期音乐巨匠,为古典音乐代表作曲家)切换到艾米纳姆(编者按:20 世纪白人 rap 音乐代表)时,这个系统在每一个层面学习到了什么。研究者们发现计算机开始学会了识别一些基本的音乐模型,例如打击乐,这是神经系统的较低层次,还有一些更抽象的概念,例如和谐的乐章,这是神经系统的最高层次。 研究者们并没有使用 MIDI 标示或其他类型的音乐符号,而是从 8000 首歌曲中抽取出的 8000 个原始音频信号样本,并注入到他们的学习算法中。这一决定或许体现,前者在识别模拟音乐的细微差别上依然存在局限。 对于 MIDI 而言,人声是“虚拟出来的人类声音,所以最后会有一点点失真,这就像当你面对一个从德克萨斯州或明尼苏达州来的人时可能会有一些波士顿口音,道理是一样的。” 纽约大学音乐与音频实验室的前博士后研究员 Eric Humphrey (现为 Spotify 的一名高级机器学习研究者)说:“ MIDI 这类的产品在编排诸如和声、节拍、结构和模式等传统的音乐元素方面具有很大的潜力。但是有趣的是, MIDI 在塑造音色和产出效果方面并算不上很出色。”这也就意味着,j2直播,在所有同类产品之中,“MIDI 并不能很好地编码出许多流行及现代音乐。” 但是谷歌并没有纠结于什么元素会在艺术形式中丢失,而是早已开始建立新的深度学习模型来创造音乐。这个夏天, Magenta 项目的研究者 Anna Huang 设计了一套神经网络,用以在巴赫众赞歌中写入新的语音片段(赞歌中原始的语音片段已由 Anna 删除)。 Huang 和她的研究团队最开始计划,如果音乐家已经把一首歌的开头和结尾写好,那么就使用电脑的语音生成技术来完成这首歌的中间部分。 但研究者们在重复使用这个用于语音生成的机器学习模型时,发现了两个问题。首先,音乐是繁杂多样的,有时好几种乐器会同时奏响,不同的声音会同时发出。在语音识别中,计算机工作的本质是在一个时间段内仅能识别一个人说话的模式。其次,音乐家写歌并一定从头写到尾,他们可能在创作时会时不时地回去填补一下之前的空白。而另一方面,口语则需要以一定的逻辑顺序来铺成观点。 (责任编辑:本港台直播) |