为期一周的亚麻AWSreInvent大会在美国拉斯维加斯召开,今年是第二届,与去年相比,今年的大会人数爆棚,atv,从去年的6000千人迅速增长为今年的32000人(还仅仅是参加Keynote的人数)。 根据现场的程序猿所说,这里基本已经成为全世界唯一只有男厕需要排队,而女生们可以轻松自如的方便的大型会议场馆。 从去年开始人工智能与机器学习逐渐升温,亚麻推出了 TensorFlow,各种Deep Learning 或者AI 方面的创业随之出现。现在来看,商业格局已经基本清晰,前期准备独立开发图像识别、语音识别的均遭列强强势碾压。亚麻、谷歌、微软、IBM等推出的云计算平台中都在竞相推出AI级别的编程框架,而且支持多种语言,创业者只要调API进行使用就可以了。因此,小公司还是立足于本地,看看现成的接口能给手边的业务带来哪些提升。 AWS产品战略总经理Matt Wood在大会上介绍了自家的首选开源深度机器学习平台Mxnet,基于Mxnet推出了自己的AI产品线,首批产品包括:支持24种语言47种声音的文本到语音转换服务Amazon Polly,基于深度学习的图像和人脸识别服务Amazon Rekognition,以及可编写自然人机交互的Amazon Lex。 (图:基于深度学习的图像和人脸识别服务Amazon Rekognition) Rekognition可以给图片打合适的标签。比如上面的香车美女的图片被打上了两个维度的标签:Object & scene(车,户外,白天,驾驶),Faces(女性,微笑,太阳镜)。如果拿旅游网站举例的话,把所有用户上传的攻略图片都调 API 打一圈标签,存在 RDBMS 里,以后的交互场景就会发生革命性的变化。比如,对着网站提供的导游机器人说,这家民宿的早餐好不好吃,机器人就会很懂你的跟你说好吃或者不好吃,或者说得很暧昧…… 当然这就涉及到了文本到语音转换服务Polly。Polly 看上去似乎是十几年二十年前的 tex-to-speech 的技术,实则不然。text-to-speech 是毫无生气的机械音,而据亚麻的说法,Polly 是 life like 的语音。要想做到 life like,不但要分词准确,理解语义,还要把文字中的三屉馒头(sentimental)还原出来。 在硬件方面,亚麻也提供了多款令程序猿们兴奋的基础设施,首先是早几周上线名为P2的GPU计算实例。P2专门用于支持机器学习、高性能计算以及其它需要海量浮点并行计算的应用,同时提供预置优化的数种开源机器学习计算框架,其中包括新发布的Mxnet和之前的TensorFlow、Caffe、theano、Torch和CNTK等。P2提供了多达4万2千个CUDA计算内核,AWS同时预建了基于P2的深度学习计算集群,让普通程序员能轻松完成规模化的机器学习编程和应用。 据说北京图森科技(原知图科技),就在应用P2实例研发智能汽车算法,直播,通过使用车载图像识别设备和深度学习算法。图森可以全天候识别行驶汽车的周边,还能在平面图像中精准识别三维空间里的汽车的位置,精度在厘米左右。 (责任编辑:本港台直播) |