虽然现在有很多开源数据集,但是,这些数据集是被用于学术界创新和研究的benchmark数据集。这些数据和真实场景下的用户数据差别很大,场景也不足够丰富。用开源数据训练出来的模型,识别率往往不够理想。因此,真实场景下的海量标注数据集是非常关键的。 小蚁产品的用户量很大,用户使用小蚁产品的场景各种各样,环境也各不相同。有些用户的使用场景也让我们大开脑洞。限于我们的人力物力,我们优先处理主要用户场景。 优化 如前所述,小蚁采用的是一种“端+云”的混合方式。不管是端还是云,优化始终是我们最大的挑战。 在端上,由于硬件限制,无法运行深度神经网络,我们目前使用的是传统方法。即使这样,如何更快的处理视频,也是很大的挑战。 在云上,我们用GPU服务器运行深度神经网络,费用很高。小蚁的用户量很大,用GPU服务器处理,成本压力很大。 我们迫切需要技术的发展,能够把不影响准确率太多的前提下,把处理成本降下来。 CSDN:除了小蚁目前正在做的,您对图像跟踪、识别这一系列技术的落地方向还有何构想? 张骏峰:AI技术现在已经很强大了。AlphaGo颠覆了人们对AI的理解。人脸识别的准确率不断被刷新。但是,AI用到真正的场景上,还是非常困难的。首先是数据问题。上面已经讨论过了。然后是模型的训练调参。这也是一个非常漫长痛苦的过程。然后是模型的验证。周而复始。由于这些问题,AI技术现在做好一个场景,需要花费很大的精力。 期待有一天,AI技术可以做到像使用AWS API这样简单。 CSDN:自从生成网络火爆,图像风格迁移的APP便层出不穷,但似乎都还仅停留在娱乐层面,没有向更深更实用的方向发展,那么小蚁做AI艺术这个应用的初衷是什么,下一步将踩在哪里? 张骏峰:小蚁除了硬件产品,还有很多相配套的移动应用配合硬件产品。其中,小蚁运动相机/小蚁微单App提供了完整的硬件控制,图像视频编辑,社区分享的流程。我们一直在思考如何让用户玩得更好。 2015年底我们已经知道风格迁移的论文,并且做了尝试。那时候我们没有GPU机器,用cpu来实现处理算法,处理速度非常慢。尝试过一次后我们就放弃了。 Prisma的火爆,让我们意识到在风格迁移是可以有很好的移动用户体验的。我们开始使用购买GPU机器,用GPU来实现风格迁移算法。幸运的是,那时候已经有好几篇论文,把风格转换的速度提高了很多。我们在前人的基础上,实现了我们自己的风格迁移算法,应用到小蚁的移动应用上。 小蚁AI艺术上线的时候,正好赶上微信小程序即将上线的消息。我们立刻组织人员实现了小蚁AI艺术微信小程序版。由于时间紧迫,我们在最后一个星期六才提交审核。幸运的是,我们的小程序一次审核通过,得以在小程序放开的第一天,让用户使用。大部分使用过小蚁AI艺术微信小程序的用户,反馈都是非常正面的。在几乎没有推广的情况下,上线第一天获得了超过20万的使用次数。 我们最早上线的小程序只能处理图片。春节之后,我们更新了一版,最新的小蚁AI艺术微信小程序可以处理小视频。相信用户用小蚁AI艺术处理过小视频后,会有更深刻的感受。 现在的小蚁AI艺术,从用户体验上看,还有很多局限性。首先,每一种风格,合适于某一类图片。现在的体验,用户必须手动把所有风格都试一遍,才知道哪种风格合适。某一种风格,或者合适于人像,或者合适于风景。对于同时有人有景的图片,有时候需要做一个抉择。 我们能提供的风格模板也比较有限,用户使用过一阵后,新鲜感减少。最好的用户体验,是让用户任意指定一张照片,和一种风格,我们能把这张照片按照用户指定风格处理。我们现在的技术还无法做到这一点。 CSDN:您觉得图像风格迁移技术的难点在哪里,如何落地,瓶颈是什么? (责任编辑:本港台直播) |