我的每一篇AI相关的文章后面,都会有朋友问,自己能不能做AI相关的工作,自己的工作会不会被取代,应该学点什么,现在应该怎么培养自己的孩子,以不被计算机取代…… 我其实做过一些回答,今天我用创新工场几位大学生一个月的成长案例,回答大家的问题。 每个人的潜力都很大。只要,保持学习。 先请大家听一首歌: 怎么样,好听吗? 你能相信,这首歌曲的作词、演唱歌手都是机器人吗。 作词机器人是“歆雅”,由DeeCamp训练营多风格人工智能歌词创作组开发。 你只要给她一首曲子,随意定个主题,她就能立刻创作出一首特定风格的歌词,或是忧伤或是欢快,或是低沉,或是高亢,歌词走心,会讲故事。跟歌曲的曲风匹配,而且歌词断句、押韵都有保障。单凭这一点,就要好过市面上大量的口水歌。 上面这首歌,就是根据“可惜不是你”的曲子,谱成的歌词,后面又机器合成,演唱成一首完整的歌曲。 同样一首《告白气球》,方文山的原词是“塞纳河畔,左岸的咖啡”,歆雅的歌词是“塞纳河畔,是不是我们”;一个唱“拥有你就拥有全世界”,一个唱“我寂寞的承诺只要你”。PK一下,看谁写的更有意境。 拥有十年Google工作经验的资深工程师王咏刚,昨天点评这款产品说: “我以前也做过类似的歌词、诗歌生成工具,大家也见过小冰和其他的创作机器人。所以我们技术人员都清楚,机器人生成诗歌的质量并不十分稳定,好诗究竟占多大比例,只有研发人员自己知道。但这个小组仅仅用6周时间开发出的机器人,生成好歌词的比例非常高,令我印象深刻。” 5名大学生,研发6周 我知道你们有很多问题要问我,怎么做到的?技术有多难?作词的人员是不是要被抢饭碗啦? 马上给你们解答。 这个项目的专业解释叫做:基于GAN+AutoEncoder的歌词生成。设计思路是,让用户选定一首曲子,开奖,并给出一句话作为线索,AI以这句话为“灵感”创作歌词,最终生成一篇风格、主题、韵脚都和给定线索相符的歌词。比起从固定的风格、主题集中选择或者给出确定的关键词的做法,这样生成的歌词拥有更多的灵活性。 要解释的是,这个项目并不是从0开始的,而是在一个公开论文的算法基础上进行的。工程院的导师给了同学们基本的方向指导,给大家配备了足够的硬件设备,小朋友们就开始工作了,先通过网络爬虫,建立歌词语料库。 然后使用对抗生成网络配合自编码器做歌词生成。对抗生成网络拥有生成样本质量高、抗模糊性强等特点,面对其在文本上无法直接应用的问题,小组选择自编码器对文本进行编码,并且通过训练生成器根据上文编码生成下文编码、训练判别器判断一对编码对是否来自真实数据集的方式,使模型有机会将风格、主题、结构、韵律等来自上文的线索纳入学习范围。 “歆雅”在6周的时间里,学习了30多万份歌词文件和20多万份歌曲文件。 据说,过程中闹了不少段子。他们早期开发的机器人编出来的歌词,一会普通话,一会闽南语,一会又不知道跨界到什么语言去了。他们发现原来给机器学习的歌词太杂了,然后机器人的语言系统就混乱了。后来同学们强化算法,筛除其他语言,让机器先学好普通话。 经过反复提升算法,6个月后,就是你们现在看到的这个产品了。 从我的角度看,这个产品还非常初期,有很多可以完善和提高的地方。但想到这只是5个大学生,用了6周做出来的产品,你就不能不赞叹,并且为他们鼓掌了。 AI真的没有想象那么难 而且这六个大学生并非你想象的那么高冷极客,里面还有一位大一的学生,参加这个项目之前,还不懂计算机技术,更别提什么深度学习,神经网络了。 其他4位同学虽然学习了计算机,也用过一些工具,但对深度学习也不甚了解。创新工场AI工程院的“导师”,提出了5个学习方向,根据同学们的兴趣爱好分组,每组配备两名“导师”,答疑解惑,指导方向。然后就开始边学习,边工程研发了。 所以,AI真的没有想象那么难,也没有那么可怕。 (责任编辑:本港台直播) |